Halusin saada paremman intuition siitä, miten RL toimii LLM:issä. Joten kirjoitin yksinkertaisen käsikirjoituksen opettaakseni Nanochatia lisäämään 5-numeroisia numeroita. Olin yllättynyt siitä, kuinka nopeasti se oppi. Kunnes katsoin mallin sukupolvia ja tajusin, että se oli juuri oppinut aina kutsumaan sisäänrakennettua Python-tulkkia 😂. Kirjoittamani koodi on erittäin korjaava, minimaalinen ja tehoton - olen ammattimainen podcaster, okei? Mutta siitä voi olla apua, jos haluat vain nähdä LUJITUKSEN tai GRPO:n toiminnan perusteet. Linkki ytimeen alla. Pohjimmiltaan se ei ole niin monimutkaista: luo useita lentoratoja kehotetta kohden. Päivitä mallisi, jotta on todennäköisempää, että se ottaa näytteen kaikista onnistuneiden kehityspolkujen tunnuksista.