Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Am vrut să obțin intuiții mai bune despre cum funcționează RL pe LLM-uri.
Așa că am scris un script simplu pentru a-l învăța pe Nanochat să adauge numere de 5 cifre.
Am fost surprins de cât de repede a învățat.
Până când m-am uitat la generațiile modelului și mi-am dat seama că tocmai învățase să apeleze întotdeauna interpretorul 😂 Python încorporat.
Codul pe care l-am scris este foarte remedial, minim și ineficient - sunt un podcaster profesionist, bine?
Dar ar putea fi util dacă doriți doar să vedeți elementele de bază ale modului în care funcționează REINFORCE sau GRPO. Link către esența de mai jos.
În esență, nu este atât de complicat: generați mai multe traiectorii pe solicitare. Actualizați-vă modelul pentru a face mai probabil să eșantioneze toate jetoanele din traiectoriile de succes.

Limită superioară
Clasament
Favorite

