⭐️ π₀-FAST 现在在 LeRobot 中 ⭐️ 我很高兴与大家分享我在 @LeRobotHF 的最新工作:将 π₀-FAST 完全整合到堆栈中。 原始的 Pi-FAST 实现仅在 JAX 中可用,因此我们在 PyTorch 中重建了它,从 π₀ 开始,包括交叉熵损失目标、FAST 分词方案以及 KV 缓存等推理优化。 π₀-FAST 是迄今为止最先进的自回归视觉-语言-动作模型,由 @physical_int 提供。它包括一个内置的动作分词器 FAST,将连续动作转换为离散标记(如 JPEG 压缩)。 这意味着 π₀-FAST 可以通过 LLM 风格的下一个标记预测进行训练。 一旦一切都是标记,社区将打开许多大门: > 可以轻松地在数据集、体现和甚至新的标记类型(边界框、语言、身体感知;一切都是标记)上使用下一个标记目标预训练 π₀-FAST。请注意,下一个标记预测的训练速度比扩散或流匹配快 ~5 倍。 > 重用相同的权重,并在您的目标任务上使用流匹配目标进行微调,以实现更快的推理。 您还可以使用 `lerobot-train-tokenizer` 命令在任何 LeRobot 数据集上训练自己的 FAST 分词器。太酷了。 在系统方面,我们在推理中添加了 LLM 风格的 KV 缓存,为自回归解码提供了 ~5 倍的加速。 我们在 LIBERO 上进行了评估,并在 40k 步时达到了 82.5% 的成功率(相比去年首次移植时的 ~40% 有所提升)。 这为混合 AR + 流匹配配方和 π₀.₅ 风格的知识隔离在 LeRobot 中奠定了基础。 👉 文档: 🤖 Pi0Fast 基础检查点: