热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
想要更好地理解强化学习在大型语言模型上的工作原理。
所以我写了一个简单的脚本来教Nanochat加5位数。
我对它学习的速度感到惊讶。
直到我查看模型的生成结果,意识到它只是学会了总是调用内置的Python解释器😂。
我写的代码非常基础、简约且低效——我可是个专业的播客主持人,懂吗?
但如果你只是想看看REINFORCE或GRPO的基本原理,这可能会有帮助。下面是gist的链接。
从根本上说,这并不复杂:每个提示生成多个轨迹。更新你的模型,使其更有可能从成功的轨迹中采样所有的标记。

热门
排行
收藏