Du er i et intervju som forsker hos Google. Intervjuer: Vi har en grunnleggende LLM som er elendig i matte. Hvordan ville du gjort det til et kraftsenter innen matematikk og resonnement? Du: Jeg skal få noen problemer merket og finjustere modellen. Intervjuet er over. Her er det du gikk glipp av:
Når utdata kan verifiseres, blir etiketter valgfrie. Matematikk, kode og logikk kan automatisk sjekkes og valideres. La oss bruke dette faktum til å bygge en resonnementsmodell uten manuell merking. Vi vil bruke: - @UnslothAI for parameter-effektiv finjustering. - @HuggingFace TRL for å påføre GRPO. La oss gå! 🚀
Hva er GRPO? Group Relative Policy Optimization er en forsterkende læringsmetode som finjusterer LLM-er for matematikk- og resonneringsoppgaver ved hjelp av deterministiske belønningsfunksjoner, noe som eliminerer behovet for merkede data. Her er en kort oversikt over GRPO før vi hopper inn i koden:
1️⃣ Last inn modellen Vi starter med å laste Qwen3-4B-Base og dens tokenizer ved hjelp av Unsloth. Du kan bruke hvilken som helst annen LLM med åpen vekt her. Sjekk dette 👇
2️⃣ Definer LoRA-konfigurasjon Vi bruker LoRA for å unngå å finjustere hele modellvektene. I denne koden bruker vi Unsloths PEFT ved å spesifisere: - Modellen - LoRA lav rang (r) - Moduler for finjustering osv. Sjekk dette 👇
3️⃣ Opprett datasettet Vi laster inn Open R1 Math-datasett (et matematisk problemdatasett) og formaterer det for resonnement. Hver prøve inkluderer: - En systemmelding som håndhever strukturert resonnement - Et spørsmål fra datasettet - Svaret i ønsket format Sjekk denne koden 👇
4️⃣ Definer belønningsfunksjoner I GRPO bruker vi deterministiske funksjoner for å validere svaret og tildele en belønning. Ingen manuell merking kreves! Belønningen fungerer: - Match format nøyaktig - Matchformat omtrent - Sjekk svaret - Sjekk tall Sjekk dette ut 👇
5️⃣ Bruk GRPO og begynn å trene Nå som vi har datasettet og belønningsfunksjonene klare, er det på tide å bruke GRPO. HuggingFace TRL gir alt vi beskrev i GRPO-diagrammet, ut av esken, i form av GRPOConfig og GRPOTrainer. Sjekk dette ut👇
6️⃣ Sammenligning Igjen kan vi se hvordan GRPO gjorde en basismodell til et resonnerende kraftsenter. Sjekk dette ut👇
Før vi avslutter, la meg ta opp et viktig spørsmål: Når bør du bruke forsterkningsfinjustering (RFT) kontra overvåket finjustering (SFT)? Jeg laget dette diagrammet for å gi et svar:
157,42K