المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أنت في مقابلة مع باحث في جوجل.
المحاور: لدينا نموذج أساسي في الرياضيات سيء جدا. كيف يمكنك تحويله إلى قوة في الرياضيات والتفكير؟
أنت: سأضع بعض المشاكل على علامات وأضبط النموذج بدقة.
انتهت المقابلة.
إليك ما فاتك:
عندما تكون المخرجات قابلة للتحقق، تصبح التسميات اختيارية.
يمكن التحقق تلقائيا من الرياضيات والكود والمنطق.
دعونا نستخدم هذه الحقيقة لبناء نموذج استدلالي بدون وضع وسم يدوي.
سنستخدم:
- @UnslothAI للضبط الدقيق الفعال من حيث المعاملات.
- @HuggingFace TRL لتطبيق GRPO.
لنذهب! 🚀
ما هو GRPO؟
تحسين السياسة النسبية للمجموعة هو طريقة تعلم معزز تقوم بضبط LLMs لمهام الرياضيات والتفكير باستخدام وظائف المكافأة الحتمية ، مما يلغي الحاجة إلى البيانات المسماة.
فيما يلي نظرة عامة موجزة على GRPO قبل أن ننتقل إلى التعليمات البرمجية:
1️⃣ قم بتحميل النموذج
نبدأ بتحميل Qwen3-4B-Base والرمز المميز الخاص به باستخدام Unsloth.
يمكنك استخدام أي LLM آخر مفتوح الوزن هنا.
تحقق من هذا 👇

2️⃣ تحديد تكوين LoRA
سنستخدم LoRA لتجنب ضبط أوزان النموذج بالكامل. في هذا الرمز ، نستخدم PEFT الخاص ب Unsloth من خلال تحديد:
- النموذج
- LoRA الرتبة المنخفضة (ص)
- وحدات للضبط الدقيق ، إلخ.
تحقق من هذا 👇

3️⃣ قم بإنشاء مجموعة البيانات
نقوم بتحميل مجموعة بيانات Open R1 Math (مجموعة بيانات مشكلة رياضية) وتنسيقها للتفكير.
تتضمن كل عينة:
- نظام موجه لفرض التفكير المنظم
- سؤال من مجموعة البيانات
- الإجابة بالتنسيق المطلوب
تحقق من هذا الرمز 👇

4️⃣ تحديد وظائف المكافأة
في GRPO ، نستخدم وظائف حتمية للتحقق من صحة الاستجابة وتعيين مكافأة.
لا حاجة لوضع العلامات اليدوية!
وظائف المكافأة:
- تنسيق المطابقة بالضبط
- تنسيق المطابقة تقريبا
- تحقق من الإجابة
- تحقق من الأرقام
تحقق من هذا 👇

5️⃣ استخدم GRPO وابدأ التدريب
الآن بعد أن أصبح لدينا وظائف مجموعة البيانات والمكافأة جاهزة ، حان الوقت لتطبيق GRPO.
يوفر HuggingFace TRL كل ما وصفناه في مخطط GRPO ، خارج الصندوق ، في شكل GRPOConfig و GRPOTrainer.
تحقق من هذا👇

6️⃣ مقارنة
مرة أخرى ، يمكننا أن نرى كيف حولت GRPO نموذجا أساسيا إلى قوة تفكيرية.
تحقق من هذا👇
وقبل أن نختتم كلمتي، اسمحوا لي أن أتناول سؤالا هاما:
متى يجب عليك استخدام الضبط الدقيق للتعزيز (RFT) مقابل الضبط الدقيق الخاضع للإشراف (SFT)؟
لقد أنشأت هذا الرسم التخطيطي لتقديم إجابة:

157.42K
الأفضل
المُتصدِّرة
التطبيقات المفضلة

