你的机器人政策是基于世界模型的吗? NVIDIA 的 Jim Fan 正在对此进行大规模投资。 他认为,基于 VLM 的 VLA 在机器人技术上根本上是错位的,因为它们优先考虑高层语义,而不是灵活性所需的细致物理细节。 “视频世界模型似乎是机器人政策的一个更好的预训练目标。” 我们可以期待 NVIDIA 在这一方向上今年会有大动作。
Jim Fan
Jim Fan2025年12月29日
每个人都在为氛围编码而感到恐慌。在假日的氛围中,请允许我分享我对机器人领域的焦虑。2025年我学到的三条教训。 1. 硬件领先于软件,但硬件的可靠性严重限制了软件的迭代速度。 我们见过精美的工程艺术,如Optimus、e-Atlas、Figure、Neo、G1等。我们最好的AI并没有充分利用这些前沿硬件。身体的能力超过了大脑的指挥。然而,照看这些机器人需要整个运营团队。与人类不同,机器人不会从伤痕中恢复。过热、损坏的电机、奇怪的固件问题每天都在困扰着我们。错误是不可逆转且无情的。 我的耐心是唯一能够扩展的东西。 2. 在机器人领域,基准测试仍然是一个史诗般的灾难。 LLM普通人认为MMLU和SWE-Bench是常识。请为机器人保持🍺。没有人对任何事情达成一致:硬件平台、任务定义、评分标准、模拟器或现实世界设置。每个人都在定义他们自己在每次新闻发布中即时生成的基准时,都是SOTA。每个人都从100次重试中挑选出最漂亮的演示。 我们必须在2026年作为一个领域做得更好,停止将可重复性和科学纪律视为二等公民。 3. 基于VLM的VLA感觉不对。 VLA代表“视觉-语言-行动”模型,一直是机器人大脑的主流方法。配方很简单:取一个预训练的VLM检查点,并在其上附加一个行动模块。但如果你仔细想想,VLM被高度优化以攀登像视觉问答这样的基准。这意味着两个问题:(1)VLM中的大多数参数是用于语言和知识,而不是物理;(2)视觉编码器被积极调整以*丢弃*低级细节,因为问答只需要高层次的理解。但细微的细节对灵活性非常重要。 没有理由VLA的性能会随着VLM参数的扩展而扩展。预训练是错位的。视频世界模型似乎是机器人策略的一个更好的预训练目标。我对此押下了重注。
1X的基于世界模型的策略采用类似的方法,将视频生成转化为自主机器人动作。 - 左侧为AI生成的视频 - 右侧为真实的机器人动作
52