أنت في مقابلة مع باحث في جوجل. المحاور: لدينا نموذج أساسي في الرياضيات سيء جدا. كيف يمكنك تحويله إلى قوة في الرياضيات والتفكير؟ أنت: سأضع بعض المشاكل على علامات وأضبط النموذج بدقة. انتهت المقابلة. إليك ما فاتك:
عندما تكون المخرجات قابلة للتحقق، تصبح التسميات اختيارية. يمكن التحقق تلقائيا من الرياضيات والكود والمنطق. دعونا نستخدم هذه الحقيقة لبناء نموذج استدلالي بدون وضع وسم يدوي. سنستخدم: - @UnslothAI للضبط الدقيق الفعال من حيث المعاملات. - @HuggingFace TRL لتطبيق GRPO. لنذهب! 🚀
ما هو GRPO؟ تحسين السياسة النسبية للمجموعة هو طريقة تعلم معزز تقوم بضبط LLMs لمهام الرياضيات والتفكير باستخدام وظائف المكافأة الحتمية ، مما يلغي الحاجة إلى البيانات المسماة. فيما يلي نظرة عامة موجزة على GRPO قبل أن ننتقل إلى التعليمات البرمجية:
1️⃣ قم بتحميل النموذج نبدأ بتحميل Qwen3-4B-Base والرمز المميز الخاص به باستخدام Unsloth. يمكنك استخدام أي LLM آخر مفتوح الوزن هنا. تحقق من هذا 👇
2️⃣ تحديد تكوين LoRA سنستخدم LoRA لتجنب ضبط أوزان النموذج بالكامل. في هذا الرمز ، نستخدم PEFT الخاص ب Unsloth من خلال تحديد: - النموذج - LoRA الرتبة المنخفضة (ص) - وحدات للضبط الدقيق ، إلخ. تحقق من هذا 👇
3️⃣ قم بإنشاء مجموعة البيانات نقوم بتحميل مجموعة بيانات Open R1 Math (مجموعة بيانات مشكلة رياضية) وتنسيقها للتفكير. تتضمن كل عينة: - نظام موجه لفرض التفكير المنظم - سؤال من مجموعة البيانات - الإجابة بالتنسيق المطلوب تحقق من هذا الرمز 👇
4️⃣ تحديد وظائف المكافأة في GRPO ، نستخدم وظائف حتمية للتحقق من صحة الاستجابة وتعيين مكافأة. لا حاجة لوضع العلامات اليدوية! وظائف المكافأة: - تنسيق المطابقة بالضبط - تنسيق المطابقة تقريبا - تحقق من الإجابة - تحقق من الأرقام تحقق من هذا 👇
5️⃣ استخدم GRPO وابدأ التدريب الآن بعد أن أصبح لدينا وظائف مجموعة البيانات والمكافأة جاهزة ، حان الوقت لتطبيق GRPO. يوفر HuggingFace TRL كل ما وصفناه في مخطط GRPO ، خارج الصندوق ، في شكل GRPOConfig و GRPOTrainer. تحقق من هذا👇
6️⃣ مقارنة مرة أخرى ، يمكننا أن نرى كيف حولت GRPO نموذجا أساسيا إلى قوة تفكيرية. تحقق من هذا👇
وقبل أن نختتم كلمتي، اسمحوا لي أن أتناول سؤالا هاما: متى يجب عليك استخدام الضبط الدقيق للتعزيز (RFT) مقابل الضبط الدقيق الخاضع للإشراف (SFT)؟ لقد أنشأت هذا الرسم التخطيطي لتقديم إجابة:
‏‎157.42‏K