モデルが何年もかかると思っていたベンチマークで非常に良い結果を出すと、怖くなってきます。 例えば、ARC AGI 2でモデルが30〜40%の評価を得ているのはどういう意味ですか?今年の初めにはArc AGI 1では40%もかろうじて取れているのに。私は長年ARCと関わってきて、その制作も続けています。これはテストセットでのトレーニングでも前例のない進歩です