每个人都在为氛围编码而感到恐慌。在假日的氛围中,请允许我分享我对机器人领域的焦虑。2025年我学到的三条教训。 1. 硬件领先于软件,但硬件的可靠性严重限制了软件的迭代速度。 我们见过精美的工程艺术,如Optimus、e-Atlas、Figure、Neo、G1等。我们最好的AI并没有充分利用这些前沿硬件。身体的能力超过了大脑的指挥。然而,照看这些机器人需要整个运营团队。与人类不同,机器人不会从伤痕中恢复。过热、损坏的电机、奇怪的固件问题每天都在困扰着我们。错误是不可逆转且无情的。 我的耐心是唯一能够扩展的东西。 2. 在机器人领域,基准测试仍然是一个史诗般的灾难。 LLM普通人认为MMLU和SWE-Bench是常识。请为机器人保持🍺。没有人对任何事情达成一致:硬件平台、任务定义、评分标准、模拟器或现实世界设置。每个人都在定义他们自己在每次新闻发布中即时生成的基准时,都是SOTA。每个人都从100次重试中挑选出最漂亮的演示。 我们必须在2026年作为一个领域做得更好,停止将可重复性和科学纪律视为二等公民。 3. 基于VLM的VLA感觉不对。 VLA代表“视觉-语言-行动”模型,一直是机器人大脑的主流方法。配方很简单:取一个预训练的VLM检查点,并在其上附加一个行动模块。但如果你仔细想想,VLM被高度优化以攀登像视觉问答这样的基准。这意味着两个问题:(1)VLM中的大多数参数是用于语言和知识,而不是物理;(2)视觉编码器被积极调整以*丢弃*低级细节,因为问答只需要高层次的理解。但细微的细节对灵活性非常重要。 没有理由VLA的性能会随着VLM参数的扩展而扩展。预训练是错位的。视频世界模型似乎是机器人策略的一个更好的预训练目标。我对此押下了重注。