Toda vez que vejo uma nova pontuação de benchmark "de última geração", tento um experimento mental simples. Se IA é dinheiro, então cada ponto de precisão no MMLU é uma decisão salarial, um limite de crédito, uma troca, um sinal clínico. Hoje em dia, os benchmarks tratam modelos como estudantes na semana de provas. MMLU em 88%, HumanEval em qualquer porcentagem, taxas de vitória em arenas, mas quase ninguém faz a pergunta que importa quando o modelo realmente está fazendo trabalho remunerado. Será que esse cérebro exato, nesse estado exato, produziu essa resposta corretamente? Já sabemos o que acontece quando você ignora essa camada. Durante a escassez de chips de 2021–2022, modelos de cadeia de suprimentos que eram "bons o suficiente" por anos despencaram. Eles continuavam recomendando planos que não faziam sentido econômico porque o mundo havia mudado sob eles e ninguém percebeu rápido o suficiente. Mais recentemente, usuários do Claude descobriram semanas de saídas degradadas antes da Anthropic admitir que três bugs de infraestrutura separados estavam silenciosamente corrompendo respostas. Muitos desses casos que convenientemente (quase demais) não são discutidos. Na Ambient, começamos a tratar isso como algo que você pode medir. Nossos próprios experimentos de Matemática do Ensino Fundamental usam aritmética simples e mostram com que frequência os modelos de fronteira vacilam em tarefas que deveriam tratar como tabuleiros. Quando você vê que alguns slides de "receita de IA" parecem incompletos sem um slide irmão: um para inferência verificada (que eu defino em termos claros como a capacidade de provar qual modelo, com quais pesos, respondeu a qual prompt em cada momento). Se a IA vai ficar no meio da folha de pagamento, risco e operações, os benchmarks terão que crescer e a precisão será o bilhete de entrada. O verdadeiro teste é o comportamento verificável sob incentivos econômicos.