Começa a ficar assustador quando os modelos começam a ter um desempenho realmente bom em benchmarks que você achava que levariam anos. Como assim os modelos estão obtendo 30-40% no ARC AGI 2, quando mal conseguiam 40% no ARC AGI 1, no início deste ano. Tenho trabalhado com e no ARC há anos. Este é um progresso sem precedentes, mesmo para o treinamento em um conjunto de testes.