強化学習により、LLMはプログラミング/数学の競争で人間を打ち負かすことができ、最近の進歩を推進しています(OpenAIのoシリーズ、AnthropicのClaude 4) RL は、事前学習と同じように広範な一般化を可能にするのでしょうか?現在の技術では違います 🧵 1月7日
🔗リンクはこちら、スレッドは以下のとおりです。 紙: 中程度: サブスタック: 2/7
LLMの既存の評価は、混合ドメインデータでトレーニングされ、トレーニングドメインと密接に連携したベンチマークで評価された強化ポストトレーニング(RPT)モデルを使用して、主にドメイン内のパフォーマンスを評価します。これらのセットアップは、RPTの一般化能力の真の範囲を曖昧にする交絡因子を導入します 3/7
数学、コード、知識集約型の推論にわたる 16 のベンチマークを使用して、RPT のクロスドメイン一般化を分離してテストする統合評価フレームワークを導入します。このフレームワークの中で、基本モデルとRPT戦略のさまざまな組み合わせを評価します 4/7
📌 主な調査結果: 1️⃣ RPTのゲインはほとんどドメイン内です 2️⃣ 数学とコードは互いにうまく一般化されます 3️⃣ 構造化されたスキルは、構造化されていない知識集約型のタスクには移行されません 5/7
ポイントは?RPTは強力だが狭い トレーニングされた場所のパフォーマンスは向上しますが、一般化は不十分です 6/7
この作品は、@ChuxuanHu、@maxYuxuanZhu、@aokellermann、Caleb Biddulph、@PunWai、@jasoncbenn と共同で作成されています 7/7
2.78K