新博客文章。最近,人们一直在讨论在强化学习(RL)中获取单个样本所需的计算量远远超过预训练所需的计算量。 但这只是问题的一半。 在RL中,这个昂贵的样本通常也给你提供了更少的信息位。 这对RLVR的扩展能力有影响,同时也帮助我们理解为什么自我对弈和课程学习对RL如此有帮助,为什么RL模型的表现奇怪而不平滑,以及我们如何思考人类的不同之处。 链接如下。