このNVIDIAの論文は本当に頭が混乱しました。 みんなトランスを拡大するクラスターや賢い最適化器のスケーリングについて話していますが...一方、NVIDIAとオックスフォードは進化戦略で10億パラメータモデルを訓練できることを示しましたが、多くの人が古くから古くはないと片付けていました。 そのコツは「エッグロール」という新しいシステムで、ESのコストモデル全体を逆に変えています。 通常、ESはスケールで機能しなくなります。なぜなら、すべての母集団メンバーに対してフルランク摂動行列を生成しなければならないからです。10億パラメータモデルの場合、それは膨大なメモリ移動と途方もない計算を意味します。 彼らは2つのスキニー行列AとBを使って低ランク摂動を生成し、ABTを更新として機能させることで解決しました。 人口平均はフルランクの価格を支払わずにフルランクのアップデートのように振る舞います。 その結果は? 彼らは数十万の人口規模で進化戦略を運用しており、以前の多くの研究では記憶圧ですべてが溶けてしまい、その規模には触れられませんでした。現在では、スループットは基本的にバッチ推論と同じくらい速いです。 勾配のない方法では前代未聞です。 計算も合っています。 低ランク近似は1/rのレートで真のES勾配に収束するため、ランクを押し出すことで計算爆発なしに完全なES挙動が再現されます。 しかし、実験が狂気じみるところです。 → 彼らは整数データ型のみを使って、ゼロからリカレントLMを事前学習します。グラデーションなし。バックプロップなし。ハイパースケールでも完全に安定しています。 → LLM推論ベンチマークでGRPOレベルの手法に適合します。 つまり、ESは実際のタスクにおいて現代のRL推論アプローチと競合できるということです。 ES→突然、大規模、離散、ハイブリッド、微分不可能なシステムで実用的になり、逆プロップが苦痛または不可能なまさにその場面で実現可能になります。 ...