Estoy cansado de la holgura del horizonte temporal de METR. Este benchmark es como cualquier otro benchmark de codificación compleja, solo que con resultados creativamente presentados, tiene un límite (100% y 16 horas), y no sugiere nada que no deberías haber concluido ya a partir de «saturar» los demás.
Beff – e/acc
Beff – e/acc12 ago, 07:29
La Relatividad General tomó 8 años del tiempo de prueba del cerebro de Einstein para calcular. Una vez que la IA alcance tareas que duren años o décadas, comenzará a inventar teorías completamente nuevas sobre el mundo físico. Este es el nuevo eje de escalado.
1,89K