Elke keer als ik een nieuwe "state of the art" benchmarkscore zie, probeer ik een eenvoudig gedachte-experiment. Als AI geld is, dan is elke punt nauwkeurigheid op MMLU een salarisbeslissing, een kredietlimiet, een transactie, een klinische vlag. Benchmarks behandelen modellen vandaag de dag als studenten in de examenweek. MMLU op 88%, HumanEval op welk percentage dan ook, arena-winstpercentages, maar bijna niemand stelt de vraag die ertoe doet wanneer het model daadwerkelijk betaald werk doet. Heeft deze exacte geest, in deze exacte staat, dit antwoord correct geproduceerd? We weten al wat er gebeurt als je die laag negeert. Tijdens het chiptekort van 2021-2022 dreven supply chain-modellen die jarenlang "goed genoeg" waren van de klif. Ze bleven plannen aanbevelen die economisch geen zin maakten omdat de wereld onder hen was veranderd en niemand snel genoeg opmerkte. Meer recent ontdekten Claude-gebruikers weken van verslechterde output voordat Anthropic toegaf dat drie afzonderlijke infrastructuurfouten stilletjes de reacties corrumpeerden. Veel van dergelijke gevallen worden handig (bijna te handig) niet besproken. Bij Ambient zijn we begonnen dit te behandelen als iets dat je kunt meten. Onze eigen Gradeschool Wiskunde-experimenten nemen eenvoudige rekenkunde en tonen hoe vaak grensmodellen wankelen bij taken die ze als basisvoorwaarden zouden moeten beschouwen. Zodra je ziet dat sommige "AI-inkomsten" dia's onvolledig lijken zonder een zuster-dia: één voor geverifieerde inferentie (die ik in eenvoudige termen definieer als het vermogen om te bewijzen welk model met welke gewichten welke prompt op welk moment heeft beantwoord). Als AI in het midden van de loonlijst, risico en operaties gaat zitten, zullen benchmarks volwassen moeten worden en nauwkeurigheid is het toegangsticket. Verifieerbaar gedrag onder economische prikkels is het echte examen.