Google'da bir Araştırma Bilimcisi mülakatındasın. Röportajcı: Matematikte çok kötü olan bir temel LLM'imiz var. Bunu matematik ve akıl yürütme alanında bir güç merkezine nasıl dönüştürürdün? Sen: Bazı sorunları etiketleyip modeli ince ayarlarım. Mülakat bitti. İşte kaçırdığınız şeyler:
Çıkışlar doğrulanabilir olduğunda, etiketler isteğe bağlı hale gelir. Matematik, kod ve mantık otomatik olarak kontrol edilip doğrulanabilir. Bu gerçeği manuel etiketleme olmadan bir akıl yürütme modeli oluşturmak için kullanalım. Şunları kullanacağız: - @UnslothAI parametre verimli ince ayar için. - GRPO uygulamak için TRL @HuggingFace. Gidelim! 🚀
GRPO nedir? Grup Bağıl Politika Optimizasyonu, deterministik ödül fonksiyonlarını kullanarak matematik ve muhakeme görevleri için LLM'lere ince ayar yapan ve etiketli verilere olan ihtiyacı ortadan kaldıran bir takviyeli öğrenme yöntemidir. Koda geçmeden önce GRPO'ya kısa bir genel bakış:
1️⃣ Modeli yükleyin Unsloth kullanarak Qwen3-4B-Base'i ve tokenizer'ını yükleyerek başlıyoruz. Burada başka herhangi bir açık ağırlıklı LLM'yi kullanabilirsiniz. Bunu 👇 kontrol et
2️⃣ LoRA yapılandırmasını tanımlayın Tüm model ağırlıklarında ince ayar yapmaktan kaçınmak için LoRA kullanacağız. Bu kodda, Unsloth'un PEFT'sini aşağıdakileri belirterek kullanıyoruz: - Model - LoRA düşük dereceli (r) - İnce ayar vb. için modüller. Bunu 👇 kontrol et
3️⃣ Veri kümesini oluşturun Open R1 Math veri setini (bir matematik problemi veri seti) yüklüyoruz ve akıl yürütme için biçimlendiriyoruz. Her örnek şunları içerir: - Yapılandırılmış akıl yürütmeyi zorlayan bir sistem istemi - Veri kümesinden bir soru - Gerekli formatta cevap Bu kodu 👇 kontrol et
4️⃣ Ödül işlevlerini tanımlayın GRPO'da yanıtı doğrulamak ve bir ödül atamak için deterministik işlevler kullanırız. Manuel etiketlemeye gerek yok! Ödül fonksiyonları: - Formatı tam olarak eşleştir - Maç formatı yaklaşık olarak - Cevabı kontrol et - Numaraları kontrol edin Şuna bir bak 👇
5️⃣ GRPO'yu kullanın ve eğitime başlayın Artık veri kümesi ve ödül fonksiyonları hazır olduğuna göre, GRPO'yu uygulama zamanı. HuggingFace TRL, GRPO diyagramında tanımladığımız her şeyi kutudan çıkar çıkmaz GRPOConfig ve GRPOTrainer biçiminde sağlar. Şuna bir bak👇
6️⃣ Karşılaştırma Yine, GRPO'nun bir temel modeli nasıl bir akıl yürütme gücüne dönüştürdüğünü görebiliriz. Şuna bir bak👇
Bitirmeden önce önemli bir soruya değineyim: Denetimli ince ayar (SFT) yerine takviye ince ayarını (RFT) ne zaman kullanmalısınız? Bir cevap sağlamak için bu diyagramı oluşturdum:
157,35K