一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

想要更好地理解强化学习在大型语言模型上的工作原理。所以我写了一个简单的脚本来教Nanochat加5位数。我对它学习的速度感到惊讶。直到我查看模型的生成结果，意识到它只是学会了总是调用内置的Python解释器😂。我写的代码非常基础、简约且低效——我可是个专业的播客主持人，懂吗？但如果你只是想看看REINFORCE或GRPO的基本原理，这可能会有帮助。下面是gist的链接。从根本上说，这并不复杂：每个提示生成多个轨迹。更新你的模型，使其更有可能从成功的轨迹中采样所有的标记。