想要更好地理解强化学习在大型语言模型上的工作原理。 所以我写了一个简单的脚本来教Nanochat加5位数。 我对它学习的速度感到惊讶。 直到我查看模型的生成结果,意识到它只是学会了总是调用内置的Python解释器😂。 我写的代码非常基础、简约且低效——我可是个专业的播客主持人,懂吗? 但如果你只是想看看REINFORCE或GRPO的基本原理,这可能会有帮助。下面是gist的链接。 从根本上说,这并不复杂:每个提示生成多个轨迹。更新你的模型,使其更有可能从成功的轨迹中采样所有的标记。