熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們在伯克利 AgentX 峰會的基準和評估專題中獲得了第一名!恭喜團隊 :)


2025年7月9日
作為接近現實世界的 AI 代理,我們如何知道它們實際上可以做什麼?可靠的基準至關重要,但代理基準被打破了!
範例:WebArena 將持續時間計算任務上的「45+8 分鐘」標記為正確(真實答案:「63 分鐘」。其他基準將代理能力誤估了 1.6-100%。
為什麼代理系統的評估基礎很脆弱?請參閱下面的線程和鏈接
1/8
986
熱門
排行
收藏