热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
ImageNet 有一种深深的满足感。它有一个精心策划的训练集,一个明确定义的测试协议,一个汇聚了最佳研究者的竞赛,以及一个催生了 ResNets 和 ViTs 的排行榜,最终改变了这个领域。
然后是 NLP。无论 OpenAI、Anthropic 和 xAI 有多么不同意,他们至少在一件事上达成了一致:基准测试。MMLU、HLE、SWEBench - 你无法取得进展,直到你能够衡量它。
机器人技术仍然没有这样的号召。没有人对任何事情达成一致:硬件、任务、评分、仿真引擎或现实世界环境。每个人在他们为每篇论文即时定义的基准上,都是 SOTA。
来自 ImageNet 的创作者 - BEHAVIOR 试图挑战统一机器人基准测试的艰巨任务,基于一个可重复的物理引擎(Isaac Sim)。这个项目在我从斯坦福视觉实验室毕业之前就开始了,花费了多年的奉献和博士生涯来构建。我希望 BEHAVIOR 要么是我们需要的爬坡信号,要么是最终让我们开始讨论如何衡量作为一个领域的真正进展的火花。
热门
排行
收藏