Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dans le quatrième article de notre série sur la réalisation de vLLM à partir de zéro, nous tournons notre attention vers un autre composant apparemment simple mais crucial de l'architecture Transformer : RMSNorm (normalisation par racine carrée moyenne).
Commençons par examiner ce qu'est la normalisation. Supposons que vous veniez de passer vos examens finaux et que les résultats de trois matières soient sortis :
Mathématiques : 120 points (sur 150)
Anglais : 80 points (sur 100)
Physique : 160 points (sur 200)
Quelle matière avez-vous le mieux réussie ? Si vous comparez directement 120, 80 et 160, vous concluez que la physique est la meilleure. Mais en réalité, les trois matières ont été réussies de manière équivalente.
Mathématiques : 120/150 = 80%
Anglais : 80/100 = 80%
Physique : 160/200 = 80%
C'est là le cœur de la normalisation : transformer des données de dimensions et de plages différentes en une norme unifiée pour les comparer.
Pourquoi les réseaux de neurones ont-ils besoin de normalisation ?
Imaginez que vous jouez à un jeu de téléphone arabe. La première personne dit "J'aime les pommes", et à la dixième personne, cela devient "J'aime les ananas". C'est le problème auquel sont confrontés les réseaux de neurones profonds.
Chaque couche du réseau effectue des calculs sur l'entrée, puis transmet le résultat à la couche suivante. Le problème est qu'avec l'augmentation du nombre de couches, ces valeurs deviennent de plus en plus incontrôlables - soit elles explosent, soit elles disparaissent sans laisser de trace. Comme dans le jeu de téléphone arabe, l'information se déforme progressivement au cours de la transmission.
L'ajout de couches de normalisation dans le modèle peut réduire la probabilité d'explosion ou de disparition des gradients, rendant le processus d'entraînement du modèle plus stable. La technique de normalisation a évolué depuis BatchNorm jusqu'à LayerNorm, et enfin jusqu'à RMSNorm, devenant un standard pour les grands modèles.
Mon article vous fera découvrir l'histoire de l'évolution des techniques de normalisation, ceux qui sont intéressés peuvent consulter le texte original.


Meilleurs
Classement
Favoris

