De fiecare dată când văd un nou scor de referință "de ultimă generație", încerc un simplu experiment mental. Dacă AI înseamnă bani, atunci fiecare punct de acuratețe pe MMLU este o decizie salarială, o limită de credit, un schimb, un semnal clinic. Benchmark-urile de astăzi tratează modelele ca pe niște elevi în săptămâna examenelor. MMLU la 88%, HumanEval la orice procent, rate de câștig în arenă, dar aproape nimeni nu pune întrebarea care contează când modelul chiar lucrează plătit. Acest creier exact, în această stare exactă, a produs corect acest răspuns? Știm deja ce se întâmplă când ignori acel strat. În timpul penuriei de cipuri din 2021–2022, modelele din lanțul de aprovizionare care fuseseră "suficient de bune" de ani de zile au alunecat de sub o prăpastie. Au continuat să recomande planuri care nu aveau niciun sens economic pentru că lumea se schimbase sub ei și nimeni nu a observat suficient de repede. Mai recent, utilizatorii Claude au descoperit săptămâni întregi de ieșiri degradate înainte ca Anthropic să recunoască că trei bug-uri separate de infrastructură corupeau discret răspunsurile. Multe astfel de cazuri care, aproape prea convenabil, nu sunt discutate. La Ambient am început să tratăm asta ca pe ceva ce poți măsura. Propriile noastre experimente de matematică pentru școala primară iau aritmetică simplă și arată cât de des modelele de frontieră se poticnesc la sarcini pe care ar trebui să le trateze ca pe niște mize de masă. Odată ce vezi că unele slide-uri despre "veniturile AI" par incomplete fără un slide frate: unul pentru inferența verificată (pe care o definesc clar ca fiind abilitatea de a demonstra care model, cu ce ponderi, a răspuns la ce întrebare și la ce moment). Dacă AI va rămâne la mijlocul salariilor, riscului și operațiunilor, reperele vor trebui să crească, iar acuratețea este punctul de intrare. Comportamentul verificabil sub stimulente economice este adevăratul test.