トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
vLLM をゼロから実装することに関する 4 番目の記事では、Transformer アーキテクチャの別の一見単純でありながら重要なコンポーネントである RMSNorm (二乗平均平方根正規化) に注意を向けます。
まず正規化とは何かを見てみましょう、期末試験を終えたばかりで、3つのコースの結果が出たとしましょう。
数学:150点満点中120点
英語: 100点満点中80点
物理学: 160 点満点中 200 点
どのコースが最適ですか? 120、80、160を直接比較してみると、物理学で最良の結論が出るだろう。 しかし、実際の状況は、実際には3つのコースが同等に優れているということです。
数学:120/150 = 80%
英語: 80/100 = 80%
物理:160/200 = 80%
これは正規化の中心的な考え方であり、異なる次元と異なる範囲のデータを比較のための統一された標準に変換します。
ニューラルネットワークを正規化する必要があるのはなぜですか?
メッセージング ゲームをプレイしていると想像してください。 1人目が「リンゴが好き」と言い、10人目に渡ると「パイナップルが好き」になった。 これがディープニューラルネットワークが直面する問題です。
ネットワークの各層は、入力に対していくつかの計算を行い、その結果を次の層に渡します。 問題は、層の数が増えるにつれて、これらの値がますます制御不能になり、爆発したり、跡形もなく消えたりすることです。 メッセージングゲームのように、情報は送信中に徐々に歪んでいきます。
モデルに正規化層を追加すると、勾配の爆発や消失の可能性が減り、モデルのトレーニング プロセスがより安定します。 正規化テクノロジーは、BatchNorm から LayerNorm、そして最終的に RMSNorm へと進化し、大規模モデルの標準構成になりました。
私の記事では、正規化技術の進化の歴史を紹介しますので、興味があれば元の記事を確認してください。


トップ
ランキング
お気に入り

