Je suis fatigué de la marge de temps de METR. Ce benchmark est comme tous les autres benchmarks de codage complexes, seulement avec des résultats rendus de manière créative, il a un plafond (100 % et 16 heures), et il ne suggère rien que vous ne devriez pas déjà avoir conclu en « saturant » les autres.
Beff – e/acc
Beff – e/acc12 août, 07:29
General Relativity took 8 years of Einstein's brain's test time compute. Once AI reaches into the task durations of years to decades it will begin to invent whole new theories about the physical world. This is the new scaling axis.
1,88K