Ich bin müde von der Zeitspanne von METR. Dieser Benchmark ist wie jeder andere komplexe Codierungsbenchmark, nur dass die Ergebnisse kreativ dargestellt werden, er hat eine Obergrenze (100 % und 16 Stunden) und er schlägt nichts vor, was man nicht bereits aus dem "Sättigen" hätte schließen können.
Beff – e/acc
Beff – e/acc12. Aug., 07:29
Die allgemeine Relativitätstheorie benötigte 8 Jahre Testzeit von Einsteins Gehirn zur Berechnung. Sobald KI in die Aufgabenzeiten von Jahren bis Jahrzehnten vordringt, wird sie beginnen, ganz neue Theorien über die physische Welt zu erfinden. Dies ist die neue Skalierungsachse.
1,88K