Sono stanco della sloppiness dell'orizzonte temporale di METR. Questo benchmark è proprio come ogni altro benchmark di codifica complesso, solo con risultati resi in modo creativo, ha un limite (100% e 16 ore), e non suggerisce nulla che non dovresti già aver concluso da "saturare".
Beff – e/acc
Beff – e/acc12 ago, 07:29
La Relatività Generale ha richiesto 8 anni di tempo di calcolo del cervello di Einstein. Una volta che l'IA raggiunge durate di compiti che vanno da anni a decenni, inizierà a inventare teorie completamente nuove sul mondo fisico. Questo è il nuovo asse di scalabilità.
1,85K