Ми посіли перше місце на саміті Berkeley AgentX за трек бенчмарків та оцінок! Вітаємо колектив :)
Daniel Kang
Daniel Kang9 лип. 2025 р.
Як ми знаємо, що вони насправді можуть робити, як агенти штучного інтелекту майже використовують у реальному світі? Надійні орієнтири мають вирішальне значення, але агентичні орієнтири зламані! Приклад: WebArena оцінює «45+8 хвилин» у завданні на розрахунок тривалості як правильну (реальна відповідь: «63 хвилини»). Інші бенчмарки неправильно оцінюють компетентність агента на 1,6-100%. Чому основи оцінки агентних систем є крихкими? Нижче наведено теми та посилання 1/8
1,01K