أردت الحصول على حدس أفضل لكيفية عمل RL على LLMs. لذلك كتبت نصا بسيطا لتعليم Nanochat إضافة أرقام مكونة من 5 أرقام. لقد فوجئت بمدى سرعة تعلمها. حتى نظرت إلى أجيال النموذج وأدركت أنه تعلم للتو استدعاء مترجم 😂 Python المدمج دائما. الكود الذي كتبته علاجي للغاية وبسيط وغير فعال - أنا بودكاست محترف ، حسنا؟ ولكن قد يكون مفيدا إذا كنت تريد فقط معرفة أساسيات كيفية عمل REINFORCE أو GRPO. رابط إلى الجوهر أدناه. في الأساس ، الأمر ليس بهذه التعقيد: قم بإنشاء مسارات متعددة لكل مطالبة. قم بتحديث النموذج الخاص بك لزيادة احتمالية أخذ عينات من جميع الرموز المميزة في المسارات الناجحة.