شرائح لمحاضرتي "LLM Reasoning" في جامعة ستانفورد CS 25: النقاط الرئيسية: 1. التفكير في LLMs يعني ببساطة إنشاء سلسلة من الرموز الوسيطة قبل إنتاج الإجابة النهائية. ما إذا كان هذا يشبه التفكير البشري غير ذي صلة. البصيرة الحاسمة هي أن نماذج المحولات يمكن أن تصبح قوية بشكل تعسفي تقريبا عن طريق إنشاء العديد من الرموز الوسيطة ، دون الحاجة إلى توسيع حجم النموذج ( 2. النماذج المدربة مسبقا ، حتى بدون أي ضبط دقيق ، قادرة على التفكير. يكمن التحدي في أن المخرجات القائمة على التفكير لا تظهر غالبا في الجزء العلوي من توزيع المخرجات ، لذلك يفشل فك التشفير الجشع القياسي في إظهارها ( 3. تم استخدام تقنيات التحفيز (على سبيل المثال ، تحفيز سلسلة الأفكار أو "دعنا نفكر خطوة بخطوة") والضبط الدقيق الخاضع للإشراف بشكل شائع لاستنباط التفكير. الآن ، برز ضبط RL كأقوى طريقة. تم اكتشاف هذه الحيلة بشكل مستقل من قبل العديد من المختبرات. في Google ، يعود الفضل إلى جوناثان لاي في فريقي. بناء على نظريتنا (انظر النقطة 1) ، يجب أن يركز توسيع نطاق RL على توليد استجابات طويلة بدلا من أي شيء آخر. 4. يمكن تحسين منطق LLM بشكل كبير عن طريق توليد استجابات متعددة ثم تجميعها ، بدلا من الاعتماد على استجابة واحدة (
‏‎177.33‏K