強化學習(RL)用於推理時通常依賴驗證者——對數學來說很棒,但對於創意寫作或開放式研究來說卻很棘手。 認識 RARO:一種新的範式,通過對抗遊戲教導大型語言模型(LLMs)進行推理,而不是依賴驗證。 沒有驗證者。沒有環境。只有示範。 🧵👇