Začíná to být děsivé, když modely začnou být opravdu úspěšné v benchmarkech, které jste čekali, že to potrvá roky. Co tím myslíš, že modely dosahují 30-40 % na ARC AGI 2, když na ARC AGI 1 sotva dosáhly 40 %, začátkem tohoto roku. S ARC pracuji a pracuji na ní už roky. To je bezprecedentní pokrok i u výcviku na testovací sadě