Estou cansado da imprecisão do horizonte temporal do METR. Este benchmark é como qualquer outro benchmark de codificação complexa, apenas com resultados apresentados de forma criativa, tem um teto (100% e 16 horas) e não sugere nada que você já não deveria ter concluído a partir de "saturar".
Beff – e/acc
Beff – e/acc12/08/2025
General Relativity took 8 years of Einstein's brain's test time compute. Once AI reaches into the task durations of years to decades it will begin to invent whole new theories about the physical world. This is the new scaling axis.
1,89K