新しいブログ記事です。最近、RLで単一のサンプルを取得するのに事前学習よりもはるかに多くの計算が必要だと話されています。 しかし、これは問題の半分に過ぎません。 強化学習では、その高価なサンプルは通常、ビット数が大幅に減っています。 これはRLVRのスケーリング効果に影響を与え、自己プレイやカリキュラム学習がなぜ強化学習に非常に役立つのか、強化学習モデルがなぜ奇妙にギザギザしているのか、そして人間が何を違うかを考える助けとなります。 以下にリンクがあります。