Se alkaa tuntua pelottavalta, kun mallit menestyvät todella hyvin testeissä, joiden luulit kestävän vuosia. Mitä tarkoitat, että mallit saavat 30-40 % ARC AGI 2:ssa, kun ne tuskin saivat 40 % ARC AGI 1:ssä tämän vuoden alussa. Olen työskennellyt ARC:n kanssa ja sen parissa vuosia. Tämä on ennennäkemätön edistysaskel jopa testisarjan harjoittelussa