一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

⭐️ π₀-FAST 现在在 LeRobot 中 ⭐️ 我很高兴与大家分享我在 @LeRobotHF 的最新工作：将 π₀-FAST 完全整合到堆栈中。原始的 Pi-FAST 实现仅在 JAX 中可用，因此我们在 PyTorch 中重建了它，从 π₀ 开始，包括交叉熵损失目标、FAST 分词方案以及 KV 缓存等推理优化。 π₀-FAST 是迄今为止最先进的自回归视觉-语言-动作模型，由 @physical_int 提供。它包括一个内置的动作分词器 FAST，将连续动作转换为离散标记（如 JPEG 压缩）。这意味着 π₀-FAST 可以通过 LLM 风格的下一个标记预测进行训练。一旦一切都是标记，社区将打开许多大门： > 可以轻松地在数据集、体现和甚至新的标记类型（边界框、语言、身体感知；一切都是标记）上使用下一个标记目标预训练 π₀-FAST。请注意，下一个标记预测的训练速度比扩散或流匹配快 ~5 倍。 > 重用相同的权重，并在您的目标任务上使用流匹配目标进行微调，以实现更快的推理。您还可以使用 `lerobot-train-tokenizer` 命令在任何 LeRobot 数据集上训练自己的 FAST 分词器。太酷了。在系统方面，我们在推理中添加了 LLM 风格的 KV 缓存，为自回归解码提供了 ~5 倍的加速。我们在 LIBERO 上进行了评估，并在 40k 步时达到了 82.5% 的成功率（相比去年首次移植时的 ~40% 有所提升）。这为混合 AR + 流匹配配方和 π₀.₅ 风格的知识隔离在 LeRobot 中奠定了基础。 👉 文档： 🤖 Pi0Fast 基础检查点：