Ingin mendapatkan intuisi yang lebih baik tentang cara kerja RL pada LLM. Jadi saya menulis skrip sederhana untuk mengajari Nanochat menambahkan angka 5 digit. Saya terkejut betapa cepatnya ia belajar. Sampai saya melihat generasi model dan menyadari bahwa model baru saja belajar untuk selalu memanggil penerjemah 😂 Python bawaan . Kode yang saya tulis sangat perbaikan, minimal, dan tidak efisien - saya seorang podcaster profesional, oke? Tetapi mungkin akan membantu jika Anda hanya ingin melihat dasar-dasar cara kerja REINFORCE atau GRPO. Tautan ke inti di bawah ini. Pada dasarnya, ini tidak terlalu rumit: hasilkan beberapa lintasan per perintah. Perbarui model Anda agar lebih mungkin mengambil sampel semua token dalam lintasan yang berhasil.