"Il nostro framework di tasso di passaggio ci offre anche buone intuizioni sul perché il self play sia stato così produttivo nella storia del RL. Se stai competendo contro un giocatore che è quasi bravo come te, stai bilanciando attorno a un tasso di passaggio del 50%, il che massimizza i risultati che ottieni da una variabile binaria casuale."
Nuovo post sul blog. Recentemente, le persone hanno parlato di quanto ci voglia molta più potenza di calcolo per ottenere un singolo campione in RL rispetto a quanto avviene nel pretraining.
Ma questo è solo metà del problema.
In RL, quel campione costoso ti fornisce anche di solito molti meno bit.
E questo ha implicazioni su quanto bene RLVR si scalerà, oltre ad aiutarci a capire perché il self-play e l'apprendimento curricolare siano così utili per RL, perché i modelli RLed sono bizzarramente frastagliati e come possiamo pensare a cosa fanno gli esseri umani in modo diverso.
Link qui sotto.
Come facciamo a tenere conto dell'estrema irregolarità indotta da RLVR?
Com'è possibile avere modelli che sono di livello mondiale nelle competizioni di coding ma che allo stesso tempo lasciano bug e debito tecnico estremamente prevedibili in tutto il codice?
Nuovo post sul blog. Recentemente, le persone hanno parlato di quanto ci voglia molta più potenza di calcolo per ottenere un singolo campione in RL rispetto a quanto avviene nel pretraining.
Ma questo è solo metà del problema.
In RL, quel campione costoso ti fornisce anche di solito molti meno bit.
E questo ha implicazioni su quanto bene RLVR si scalerà, oltre ad aiutarci a capire perché il self-play e l'apprendimento curricolare siano così utili per RL, perché i modelli RLed sono bizzarramente frastagliati e come possiamo pensare a cosa fanno gli esseri umani in modo diverso.
Link qui sotto.