热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
⭐️ π₀-FAST 现在在 LeRobot 中 ⭐️
我很高兴与大家分享我在 @LeRobotHF 的最新工作:将 π₀-FAST 完全整合到堆栈中。
原始的 Pi-FAST 实现仅在 JAX 中可用,因此我们在 PyTorch 中重建了它,从 π₀ 开始,包括交叉熵损失目标、FAST 分词方案以及 KV 缓存等推理优化。
π₀-FAST 是迄今为止最先进的自回归视觉-语言-动作模型,由 @physical_int 提供。它包括一个内置的动作分词器 FAST,将连续动作转换为离散标记(如 JPEG 压缩)。
这意味着 π₀-FAST 可以通过 LLM 风格的下一个标记预测进行训练。
一旦一切都是标记,社区将打开许多大门:
> 可以轻松地在数据集、体现和甚至新的标记类型(边界框、语言、身体感知;一切都是标记)上使用下一个标记目标预训练 π₀-FAST。请注意,下一个标记预测的训练速度比扩散或流匹配快 ~5 倍。
> 重用相同的权重,并在您的目标任务上使用流匹配目标进行微调,以实现更快的推理。
您还可以使用 `lerobot-train-tokenizer` 命令在任何 LeRobot 数据集上训练自己的 FAST 分词器。太酷了。
在系统方面,我们在推理中添加了 LLM 风格的 KV 缓存,为自回归解码提供了 ~5 倍的加速。
我们在 LIBERO 上进行了评估,并在 40k 步时达到了 82.5% 的成功率(相比去年首次移植时的 ~40% 有所提升)。
这为混合 AR + 流匹配配方和 π₀.₅ 风格的知识隔离在 LeRobot 中奠定了基础。
👉 文档:
🤖 Pi0Fast 基础检查点:
热门
排行
收藏
