vLLM をゼロから実装することに関する 4 番目の記事では、Transformer アーキテクチャの別の一見単純でありながら重要なコンポーネントである RMSNorm (二乗平均平方根正規化) に注意を向けます。 まず正規化とは何かを見てみましょう、期末試験を終えたばかりで、3つのコースの結果が出たとしましょう。 数学:150点満点中120点 英語: 100点満点中80点 物理学: 160 点満点中 200 点 どのコースが最適ですか? 120、80、160を直接比較してみると、物理学で最良の結論が出るだろう。 しかし、実際の状況は、実際には3つのコースが同等に優れているということです。 数学:120/150 = 80% 英語: 80/100 = 80% 物理:160/200 = 80% これは正規化の中心的な考え方であり、異なる次元と異なる範囲のデータを比較のための統一された標準に変換します。 ニューラルネットワークを正規化する必要があるのはなぜですか? メッセージング ゲームをプレイしていると想像してください。 1人目が「リンゴが好き」と言い、10人目に渡ると「パイナップルが好き」になった。 これがディープニューラルネットワークが直面する問題です。 ネットワークの各層は、入力に対していくつかの計算を行い、その結果を次の層に渡します。 問題は、層の数が増えるにつれて、これらの値がますます制御不能になり、爆発したり、跡形もなく消えたりすることです。 メッセージングゲームのように、情報は送信中に徐々に歪んでいきます。 モデルに正規化層を追加すると、勾配の爆発や消失の可能性が減り、モデルのトレーニング プロセスがより安定します。 正規化テクノロジーは、BatchNorm から LayerNorm、そして最終的に RMSNorm へと進化し、大規模モデルの標準構成になりました。 私の記事では、正規化技術の進化の歴史を紹介しますので、興味があれば元の記事を確認してください。