我们在伯克利AgentX峰会上获得了基准和评估赛道的第一名!祝贺团队 :)
Daniel Kang
Daniel Kang2025年7月9日
随着人工智能代理接近实际应用,我们如何知道它们实际上能做什么?可靠的基准测试至关重要,但代理基准测试却存在问题! 例如:WebArena在一个持续时间计算任务上将"45+8分钟"标记为正确(真实答案是:"63分钟")。其他基准测试对代理能力的估计误差在1.6%-100%之间。 为什么代理系统的评估基础如此脆弱?请参见下面的线程和链接 1/8
1.01K