Я втомився від провалу часового горизонту METR. Цей бенчмарк такий самий, як і будь-який інший складний бенчмарк кодування, тільки при творчому відображенні результатів, у нього є стеля (100% і 16 годин), і він не пропонує нічого, що ви вже не повинні були зробити висновок з «насичуючих».
Beff – e/acc
Beff – e/acc12 серп., 07:29
Загальна теорія відносності зайняла 8 років обчислення тестового часу мозку Ейнштейна. Як тільки штучний інтелект приступить до виконання завдання тривалістю від років до десятиліть, він почне винаходити абсолютно нові теорії про фізичний світ. Це нова вісь масштабування.
1,87K