هذه الورقة في NVIDIA حطمت عقلي للتو. الجميع يتحدث عن توسيع المحولات ذات العناقيد الأكبر والمحسنات الأذكى... وفي الوقت نفسه، أظهرت NVIDIA وأكسفورد أنه يمكنك تدريب نماذج ذات مليار معامل باستخدام استراتيجيات التطور، وهي طريقة اعتبرها معظم الناس قديمة. الحيلة هي نظام جديد يسمى EGGROLL، وهو يقلب نموذج التكلفة بالكامل ل ES. عادة، تموت ES على نطاق واسع لأنك تحتاج إلى توليد مصفوفات اضطراب كاملة لكل عضو في السكان. بالنسبة لنماذج المليارات معاملات، هذا يعني حركة ذاكرة جنونية وحوسبة سخيفة. هؤلاء الأشخاص حلوا المشكلة عن طريق توليد اضطرابات منخفضة الرتبة باستخدام مصفوفتين نحيفتين A و B وترك ABT يعمل كتحديث. ثم يتصرف متوسط السكان كتحديث كامل الرتبة دون دفع ثمن الرتبة الكاملة. النتيجة؟ يستخدمون استراتيجيات تطور بأحجام سكانية بلغت مئات الآلاف، ولم تستطع العديد من الأعمال السابقة الوصول إليها لأن كل شيء ذاب تحت ضغط الذاكرة. الآن، معدل النقل سريع تقريبا مثل الاستدلال الدفعي. هذا أمر غير معتاد لأي طريقة خالية من التدرج. الرياضيات منطقية أيضا. يقترب تقريب الرتبة المنخفضة إلى تدرج ES الحقيقي بمعدل 1/r، لذا فإن دفع الرتبة يعيد خلق سلوك ES الكامل دون الانفجار الحسابي. لكن التجارب هي المكان الذي يصبح فيه الأمر جنونيا. → يقومون بتدريب أنظمة إدارة التعلم المتكررة مسبقا من الصفر باستخدام أنواع بيانات صحيحة فقط. لا تدرجات. لا يوجد دعامة خلفية. مستقر تماما حتى على النطاق الفائق. → تطابق طرق المستوى GRPO في معايير استدلال نماذج اللغة الكبيرة (LLM). هذا يعني أن ES يمكنه المنافسة مع أساليب التعلم المنطقي الحديثة في المهام الحقيقية. → يصبح ES فجأة صالحا للأنظمة الضخمة والمنفصلة والهجينة وغير القابلة للتمايز، وهي الأماكن الدقيقة التي يكون فيها الخلفية مؤلمة أو مستحيلة. ...