RLがLLMでどのように機能するかについて、より良い直感を得たいと思いました。 そこで、Nanochatに5桁の数字を加算するように教える簡単なスクリプトを書きました。 学習の速さに驚きました。 モデルの世代を見て、常に組み込みのPythonインタプリタ😂を呼び出すことを学んだことに気付くまで。 私が書いたコードは非常に修復的で、最小限で、非効率的です - 私はプロのポッドキャスターですよね? ただし、REINFORCE または GRPO がどのように機能するかの基本を確認したいだけの場合は役立つ場合があります。以下の要点へのリンク。 基本的には、プロンプトごとに複数の軌跡を生成するという、それほど複雑ではありません。モデルを更新して、成功した軌道のすべてのトークンをサンプリングする可能性が高くなります。