Каждый раз, когда я вижу новый «современный» бенчмарк, я провожу простой мысленный эксперимент. Если ИИ — это деньги, то каждая точка точности на MMLU — это решение о зарплате, кредитный лимит, сделка, клинический флаг. Бенчмарки сегодня рассматривают модели как студентов на экзаменационной неделе. MMLU на уровне 88%, HumanEval на каком-то проценте, коэффициенты побед на арене, но почти никто не задает вопрос, который имеет значение, когда модель действительно выполняет оплачиваемую работу. Этот конкретный мозг, в этом конкретном состоянии, правильно ли ответил на этот вопрос? Мы уже знаем, что происходит, когда вы игнорируете этот уровень. Во время нехватки чипов в 2021–2022 годах модели цепочки поставок, которые были «достаточно хорошими» в течение многих лет, упали с обрыва. Они продолжали рекомендовать планы, которые не имели экономического смысла, потому что мир изменился, а никто не заметил этого достаточно быстро. Совсем недавно пользователи Claude обнаружили недели ухудшенных результатов, прежде чем Anthropic признал, что три отдельных инфраструктурных сбоя тихо портили ответы. Много таких случаев, о которых удобно (почти слишком удобно) не говорят. В Ambient мы начали рассматривать это как то, что можно измерить. Наши собственные эксперименты по математике начальной школы берут простую арифметику и показывают, как часто передовые модели колеблются в задачах, которые они должны рассматривать как базовые. Как только вы увидите, что некоторые слайды «доходов от ИИ» выглядят неполными без слайда-соседа: одного для проверенной инференции (которую я определяю простыми словами как способность доказать, какая модель с какими весами ответила на какой запрос в какое время). Если ИИ собирается находиться в центре расчета заработной платы, рисков и операций, бенчмарки должны повзрослеть, и точность — это входной билет. Проверяемое поведение в условиях экономических стимулов — это настоящий экзамен.