分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

強化学習により、LLMはプログラミング/数学の競争で人間を打ち負かすことができ、最近の進歩を推進しています(OpenAIのoシリーズ、AnthropicのClaude 4) RL は、事前学習と同じように広範な一般化を可能にするのでしょうか?現在の技術では違います 🧵 1月7日

🔗リンクはこちら、スレッドは以下のとおりです。紙：中程度：サブスタック: 2/7

LLMの既存の評価は、混合ドメインデータでトレーニングされ、トレーニングドメインと密接に連携したベンチマークで評価された強化ポストトレーニング(RPT)モデルを使用して、主にドメイン内のパフォーマンスを評価します。これらのセットアップは、RPTの一般化能力の真の範囲を曖昧にする交絡因子を導入します 3/7

数学、コード、知識集約型の推論にわたる 16 のベンチマークを使用して、RPT のクロスドメイン一般化を分離してテストする統合評価フレームワークを導入します。このフレームワークの中で、基本モデルとRPT戦略のさまざまな組み合わせを評価します 4/7

📌 主な調査結果: 1️⃣ RPTのゲインはほとんどドメイン内です 2️⃣ 数学とコードは互いにうまく一般化されます 3️⃣ 構造化されたスキルは、構造化されていない知識集約型のタスクには移行されません 5/7

ポイントは?RPTは強力だが狭いトレーニングされた場所のパフォーマンスは向上しますが、一般化は不十分です 6/7

この作品は、@ChuxuanHu、@maxYuxuanZhu、@aokellermann、Caleb Biddulph、@PunWai、@jasoncbenn と共同で作成されています 7/7

2.78K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable