في المقالة الرابعة حول تنفيذ vLLMs من البداية ، نوجه انتباهنا إلى مكون آخر يبدو بسيطا ولكنه حاسم في بنية المحولات: RMSNorm (تطبيع متوسط مربع الجذر). دعنا أولا نلقي نظرة على ماهية التطبيع ، لنفترض أنك قد انتهيت للتو من الاختبار النهائي وظهرت نتائج الدورات الثلاث: الرياضيات: 120 من 150 الإنجليزية: 80 من 100 الفيزياء: 160 من 200 ما هي الدورة الأفضل؟ إذا قارنت 120 ، 80 ، 160 مباشرة ، فستصل إلى أفضل استنتاج في الفيزياء. لكن الوضع الحقيقي هو أن الدورات الثلاث جيدة في الواقع. الرياضيات: 120/150 = 80٪ اللغة الإنجليزية: 80/100 = 80٪ المادية: 160/200 = 80٪ هذه هي الفكرة الأساسية للتطبيع: تحويل البيانات ذات الأبعاد المختلفة والنطاقات المختلفة إلى معيار موحد للمقارنة. لماذا تحتاج الشبكات العصبية إلى التطبيع؟ تخيل أنك تلعب لعبة مراسلة. قال الشخص الأول "أنا أحب التفاح" ، وعندما انتقل إلى الشخص العاشر ، أصبح "أنا أحب الأناناس". هذه هي المشكلة التي تواجهها الشبكات العصبية العميقة. تقوم كل طبقة من الشبكة بإجراء بعض العمليات الحسابية على الإدخال ثم تمرر النتائج إلى الطبقة التالية. تكمن المشكلة في أنه مع زيادة عدد الطبقات ، تصبح هذه القيم غير قابلة للسيطرة أكثر فأكثر - إما تنفجر أو تختفي دون أن يترك أثرا. مثل لعبة المراسلة ، يتم تشويه المعلومات تدريجيا أثناء الإرسال. يمكن أن تؤدي إضافة طبقة تطبيع إلى النموذج إلى تقليل احتمالية انفجار التدرج أو الاختفاء ، وتصبح عملية تدريب النموذج أكثر استقرارا. تطورت تقنية التطبيع من BatchNorm إلى LayerNorm وأخيرا إلى RMSNorm ، لتصبح التكوين القياسي للنماذج الكبيرة. ستأخذك مقالتي إلى تاريخ تطور تكنولوجيا التطبيع ، إذا كنت مهتما ، يمكنك التحقق من المقالة الأصلية.