Começa a ficar assustador quando os modelos começam a ir muito bem em benchmarks que você achava que levariam anos. Como assim, os modelos estão conseguindo 30-40% no ARC AGI 2, quando mal conseguiram 40% no ARC AGI 1, no começo deste ano. Trabalho com e em ARC há anos. Isso é um progresso sem precedentes, mesmo para treinamento em um conjunto de testes