Am vrut să obțin intuiții mai bune despre cum funcționează RL pe LLM-uri. Așa că am scris un script simplu pentru a-l învăța pe Nanochat să adauge numere de 5 cifre. Am fost surprins de cât de repede a învățat. Până când m-am uitat la generațiile modelului și mi-am dat seama că tocmai învățase să apeleze întotdeauna interpretorul 😂 Python încorporat. Codul pe care l-am scris este foarte remedial, minim și ineficient - sunt un podcaster profesionist, bine? Dar ar putea fi util dacă doriți doar să vedeți elementele de bază ale modului în care funcționează REINFORCE sau GRPO. Link către esența de mai jos. În esență, nu este atât de complicat: generați mai multe traiectorii pe solicitare. Actualizați-vă modelul pentru a face mai probabil să eșantioneze toate jetoanele din traiectoriile de succes.