Ønsket å få bedre intuisjoner for hvordan RL fungerer på LLM-er. Så jeg skrev et enkelt skript for å lære Nanochat å legge til 5-sifrede tall. Jeg ble overrasket over hvor raskt den lærte. Helt til jeg så på modellens generasjoner og innså at den nettopp hadde lært å alltid ringe den innebygde Python-tolken 😂 . Koden jeg skrev er veldig utbedrende, minimal og ineffektiv - jeg er en profesjonell podcaster, ok? Men det kan være nyttig hvis du bare vil se det grunnleggende om hvordan REINFORCEMENT eller GRPO fungerer. Lenke til kjernen nedenfor. I utgangspunktet er det ikke så komplisert: generer flere baner per forespørsel. Oppdater modellen for å gjøre det mer sannsynlig at den sampler alle tokenene i de vellykkede forløpene.