لماذا تعتبر الانتروبيا المتقاطعة خسارة جيدة للتدريب المسبق للغة؟ تحذير: كل هذا معروف راجع للشغل. ومن المثير للاهتمام ، على الرغم من وجود العديد من وجهات النظر والحدس حول "لماذا X-ent" ، إلا أنه يمكن الوصول إليها جميعا من نقطة انطلاق واحدة. فيما يلي اشتقاق بسيط للمبادئ الأولى لا يفترض أي شيء عن توزيع البيانات. إنه يأتي من متطلبات تشغيلية معقولة جدا :) "أريد أن يبدو نموذجي ذكيا" لكن لا يمكننا قياس ذلك ، لذلك نسأل "أريد أن يبدو نموذجي مثل الإنسان" على الرغم من أن لدينا إمكانية الوصول إلى جميع النصوص المكتوبة على الإطلاق ، إلا أننا لا نستطيع قياس ذلك أيضا ، لذلك نسأل بدلا من ذلك "أريد أن يكون نموذجي على الأرجح قدر الإمكان لتوليد أحد النصوص المكتوبة على الإطلاق" أو بشكل أكثر صراحة: "أريد أن يحفظ نموذجي بيانات التدريب." ضع في اعتبارك هذه التجربة الفكرية: بالنظر إلى مجموعة بيانات S لجميع النصوص التي كتبها البشر على الإطلاق ، نجري تجارب مستقلة لكل "نص" في S: عينة: "عينة نص" من نموذجنا Pr ( ; W) التحقق من: هل تطابق "عينة النص" تماما مع النص الأصلي؟ ملاحظة: نحن لا نشرط على أي شيء! نسأل فقط ، من بين كل الأشياء التي يمكن أن يولدها النموذج ، هل حصلنا على "نص". تعريف النجاح على أنه الحدث E = "تنجح جميع عمليات التحقق لكل عينة" احتمال E هو نتاج الاحتمالات المخصصة للحقيقة الأرضية الصحيحة بواسطة النموذج W الخاص بك Pr(E) = π_{نص في S} Pr(نص; W) يمنحك تعظيم السجل Pr(E) على W هدف الانتروبيا المتقاطعة. كيف يمكنك تحسين هذا مع SGD؟ عينة نص من المجموعة حساب سجل grad Pr(token|prefix) لكل بادئة من النص تحديث النموذج ما هو أنيق هو أن هذا نفسه في وقت واحد: 1) يقلل من طول وصف البيانات تحت النموذج P ( ؛ W) (عرض الضغط) 2) يقلل من تباعد KL إلى التوزيع الحقيقي - إذا كان موجودا (على الرغم من أننا لم نفترض واحدا أبدا) 3) ينفذ تقدير الاحتمالية القصوى الاشتقاق واضح ومعروف ، لكنه يسلط الضوء على شيء مهم: تظهر الإنتروبيا المتقاطعة بشكل طبيعي من الرغبة في إعادة إنتاج دقيقة لبيانات التدريب. ملاحظة: كان من الممكن أن تطلب بدلا من ذلك تعظيم Pr (النص الذي تم إنشاؤه بواسطة النموذج في الحقيقة الأرضية) ومن المثير للاهتمام أن تحسين هذا يمكن أن يؤدي إلى انهيار الوضع ، لأن الحل الأمثل هو التنبؤ دائما بجزء واحد من النص من المجموعة. ومع ذلك ، تبدو التدرجات مرة أخرى مثل الانتروبيا x ولكن مع عامل مضاعف على سبيل المثال ، Pr (نص ؛ ث) سجل الدراسات العليا Pr (نص ؛ W)
‏‎61.42‏K