Hver gang jeg ser en ny "state of the art" benchmark-score, prøver jeg et enkelt tankeeksperiment. Hvis AI er penger, er hvert punkt av nøyaktighet på MMLU en lønnsbeslutning, en kredittgrense, en handel, et klinisk flagg. Benchmarks i dag behandler modellene som studenter i eksamensuken. MMLU på 88 %, HumanEval på hvilken som helst prosent, arena-vinnerrater, men nesten ingen stiller det viktige spørsmålet når modellen faktisk gjør betalt arbeid. Produserte akkurat denne hjernen, i akkurat denne tilstanden, dette svaret riktig? Vi vet allerede hva som skjer når du ignorerer det laget. Under brikkmangelen i 2021–2022 falt forsyningskjedemodeller som hadde vært «gode nok» i årevis, utfor stupet. De fortsatte å anbefale planer som ikke ga økonomisk mening fordi verden hadde endret seg under dem, og ingen la merke til det raskt nok. Mer nylig oppdaget Claude-brukere uker med forringede resultater før Anthropic innrømmet at tre separate infrastrukturfeil stille korrumperte responsene. Mange slike tilfeller blir praktisk talt (nesten altfor beleilig) ikke omtalt. Hos Ambient begynte vi å behandle dette som noe man kan måle. Våre egne matematikkeksperimenter på barneskolen bruker enkel regning og viser hvor ofte grensemodeller vakler på oppgaver de bør behandle som tabeller. Når du ser at noen "AI-inntekts"-slides ser ufullstendige ut uten en søsterslide: en for verifisert slutning (som jeg definerer enkelt som evnen til å bevise hvilken modell med hvilke vekter som svarte på hvilken prompt til og med når). Hvis AI skal ligge midt mellom lønn, risiko og drift, må referansepunktene vokse opp, og nøyaktighet er inngangsbilletten. Verifiserbar atferd under økonomiske insentiver er den virkelige prøven.