Estou cansado da inclinação do horizonte de tempo do METR. Este benchmark é como qualquer outro benchmark de codificação complexo, apenas com resultados renderizados de forma criativa, tem um teto (100% e 16 horas) e não sugere nada que você já não deva ter concluído a partir de «saturação».