Як ми знаємо, що вони насправді можуть робити, як агенти штучного інтелекту майже використовують у реальному світі? Надійні орієнтири мають вирішальне значення, але агентичні орієнтири зламані! Приклад: WebArena оцінює «45+8 хвилин» у завданні на розрахунок тривалості як правильну (реальна відповідь: «63 хвилини»). Інші бенчмарки неправильно оцінюють компетентність агента на 1,6-100%. Чому основи оцінки агентних систем є крихкими? Нижче наведено теми та посилання 1/8
Агентні оцінки відрізняються від традиційних бенчмарків ML з точки зору формулювання завдання та результату. Агентичні бенчмарки часто покладаються на крихкі симулятори (сайти іграшок, бази даних) потенційно з помилками та ярликами, які можуть спотворити результати. Крім того, результати завдань агентних бенчмарків не мають фіксованих «золотих» ярликів і часто потребують оцінки неструктурованих відповідей (код, виклики API, довгі тексти). 3/8
Щоб вирішити ці проблеми, агентичні орієнтири повинні бути спрямовані на забезпечення кореляції між позитивним результатом оцінки та можливостями цільових агентів ШІ. Ми розбираємо цю мету на два основні критерії валідності: 1. Валідність завдання: Завдання є вирішуваним тоді і тільки тоді, коли агент володіє цільовими можливостями. 2. Валідність результату: Результат оцінювання позитивний тоді і тільки тоді, коли завдання вирішено. 4/8
Ґрунтуючись на 17 популярних бенчмарках (наприклад, SWE-bench, OSWorld, TAU-bench тощо), ми розробляємо контрольний список агентських бенчмарків (ABC) з 43 пунктів, щоб швидко визначити, наскільки агентичний бенчмарк задовольняє обґрунтованість завдання та результату Абетка: 5/8
Ми застосували ABC до 10 ефективних тестів, які були використані для оцінки o3, Gemini 2.5 і Sonnet 4. Ось огляд наших висновків: 1. Валідність результату помилки 7/10 бенчмарків 2. 7/10 містять приховані ярлики/нерозв'язні завдання 3. Лише 2/10 розкривають відомі проблеми Слідкуйте за оновленнями. Незабаром ми опублікуємо більше кількісних деталей і виправлень виявлених проблем! 6/8
ABC дає можливість як розробникам еталонів, так і моделей виявляти та виправляти недоліки до того, як вони отримають заголовки результатів. Ознайомтеся з повним контрольним списком, прикладами та зробіть свій внесок через наш веб-сайт та репозиторій GitHub, щоб разом створити тести, гідні передового штучного інтелекту. 7/8
Це спільна робота з @maxYuxuanZhu, @yadapruksachatk та іншими людьми зі Стенфорда, Берклі, Єля, Прінстона, Массачусетського технологічного інституту, Transluce, ML Commons, Amazon та UK AISI. 8/8
21,97K