想學習如何使用 GRPO 和 TRL 對視覺語言模型 (VLM) 進行推理對齊嗎?🌋 🧑‍🍳 我們為你準備好了!! 新的多模態後訓練食譜,使用 @huggingface 的 Cookbook 中的 TRL 對 VLM 進行對齊
10.31K