Empieza a dar miedo cuando los modelos se ponen muy buenos en benchmarks que pensabas que tardarían años. ¿Qué quieres decir con que los modelos están obteniendo un 30-40% en ARC AGI 2, cuando apenas podían conseguir un 40% en ARC AGI 1, a principios de este año? Llevo años trabajando con y trabajando en ARC. Esto es un progreso sin precedentes incluso para entrenamiento en un conjunto de pruebas