دورة جديدة مثيرة: الضبط الدقيق والتعلم المعزز لطلاب ماجستير القانون: مقدمة في ما بعد التدريب ، يدرسها @realSharonZhou ، نائب الرئيس الذكاء الاصطناعي في @AMD. متاح الآن على . ما بعد التدريب هو الأسلوب الرئيسي الذي تستخدمه مختبرات الحدود لتحويل LLM الأساسي - وهو نموذج مدرب على نص ضخم غير مسمى للتنبؤ بالكلمة / الرمز المميز التالي - إلى مساعد مفيد وموثوق يمكنه اتباع التعليمات. لقد رأيت أيضا العديد من التطبيقات حيث يكون التدريب اللاحق هو ما يحول التطبيق التجريبي الذي يعمل بنسبة 80٪ فقط من الوقت إلى نظام موثوق به يعمل باستمرار. ستعلمك هذه الدورة أهم تقنيات ما بعد التدريب! في هذه الدورة المكونة من 5 وحدات ، يرشدك شارون عبر خط أنابيب ما بعد التدريب الكامل: الضبط الدقيق الخاضع للإشراف ، ونمذجة المكافآت ، و RLHF ، وتقنيات مثل PPO و GRPO. ستتعلم أيضا كيفية استخدام LoRA للتدريب الفعال, وتصميم الحلول التي تلتقط المشكلات قبل النشر وبعده. المهارات التي ستكتسبها: - تطبيق الضبط الدقيق الخاضع للإشراف والتعلم المعزز (RLHF ، PPO ، GRPO) لمواءمة النماذج مع السلوكيات المرغوبة - استخدم LoRA للضبط الدقيق الفعال دون إعادة تدريب النماذج بأكملها - إعداد مجموعات البيانات وإنشاء البيانات التركيبية لما بعد التدريب - فهم كيفية تشغيل خطوط أنابيب إنتاج LLM ، مع نقاط قرار الذهاب / الممنوع وحلقات التغذية الراجعة لم تعد هذه الأساليب المتقدمة تقتصر على مختبرات الذكاء الاصطناعي الحدودية بعد الآن ، ويمكنك الآن استخدامها في تطبيقاتك الخاصة. تعلم هنا: