我們在伯克利 AgentX 峰會的基準和評估專題中獲得了第一名!恭喜團隊 :)
Daniel Kang
Daniel Kang2025年7月9日
作為接近現實世界的 AI 代理,我們如何知道它們實際上可以做什麼?可靠的基準至關重要,但代理基準被打破了! 範例:WebArena 將持續時間計算任務上的「45+8 分鐘」標記為正確(真實答案:「63 分鐘」。其他基準將代理能力誤估了 1.6-100%。 為什麼代理系統的評估基礎很脆弱?請參閱下面的線程和鏈接 1/8
986