Dalam artikel keempat tentang penerapan vLLM dari awal, kita mengalihkan perhatian kita ke komponen lain yang tampaknya sederhana namun penting dari arsitektur Transformer: RMSNorm (Root Mean Square Normalization). Pertama-tama mari kita lihat apa itu normalisasi, katakanlah Anda baru saja menyelesaikan ujian akhir dan hasil dari ketiga kursus keluar: Matematika: 120 dari 150 Bahasa Inggris: 80 dari 100 Fisika: 160 dari 200 Kursus mana yang terbaik? Jika Anda membandingkan 120, 80, 160 secara langsung, Anda akan sampai pada kesimpulan terbaik dalam fisika. Tetapi situasi sebenarnya adalah bahwa ketiga kursus tersebut sebenarnya sama bagusnya. Matematika: 120/150 = 80% Bahasa Inggris: 80/100 = 80% Fisik: 160/200 = 80% Ini adalah ide inti dari normalisasi: mengubah data dengan dimensi yang berbeda dan rentang yang berbeda menjadi standar terpadu untuk perbandingan. Mengapa jaringan saraf perlu dinormalisasi? Bayangkan Anda sedang bermain game perpesanan. Orang pertama berkata "Saya suka apel", dan ketika beralih ke orang kesepuluh, itu menjadi "Saya suka nanas". Ini adalah masalah yang dihadapi oleh jaringan saraf dalam. Setiap lapisan jaringan melakukan beberapa perhitungan pada input dan kemudian meneruskan hasilnya ke lapisan berikutnya. Masalahnya adalah bahwa seiring bertambahnya jumlah lapisan, nilai-nilai ini menjadi semakin tidak terkendali - baik meledak atau menghilang tanpa jejak. Seperti permainan perpesanan, informasi secara bertahap terdistorsi selama transmisi. Menambahkan lapisan normalisasi ke model dapat mengurangi kemungkinan ledakan atau hilangnya gradien, dan proses pelatihan model menjadi lebih stabil. Teknologi normalisasi telah berkembang dari BatchNorm ke LayerNorm dan akhirnya ke RMSNorm, menjadi konfigurasi standar untuk model besar. Artikel saya akan membawa Anda ke dalam sejarah evolusi teknologi normalisasi, jika Anda tertarik, Anda dapat memeriksa artikel aslinya.