一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

新博客文章。最近，人们一直在讨论在强化学习（RL）中获取单个样本所需的计算量远远超过预训练所需的计算量。但这只是问题的一半。在RL中，这个昂贵的样本通常也给你提供了更少的信息位。这对RLVR的扩展能力有影响，同时也帮助我们理解为什么自我对弈和课程学习对RL如此有帮助，为什么RL模型的表现奇怪而不平滑，以及我们如何思考人类的不同之处。链接如下。