DApp Store | Piattaforma Web3 per eventi e giochi

Cosa posso fare con Discover

Argomenti di tendenza

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP+2,41%

Boopa+14,18%

PORK+7,1%

Dwarkesh Patel

Dwarkesh Patel19 ore fa

Domani

1,13M

Dwarkesh Patel19 nov, 01:52

"Il nostro framework di tasso di passaggio ci offre anche buone intuizioni sul perché il self play sia stato così produttivo nella storia del RL. Se stai competendo contro un giocatore che è quasi bravo come te, stai bilanciando attorno a un tasso di passaggio del 50%, il che massimizza i risultati che ottieni da una variabile binaria casuale."

Dwarkesh Patel18 nov, 01:09

Nuovo post sul blog. Recentemente, le persone hanno parlato di quanto ci voglia molta più potenza di calcolo per ottenere un singolo campione in RL rispetto a quanto avviene nel pretraining. Ma questo è solo metà del problema. In RL, quel campione costoso ti fornisce anche di solito molti meno bit. E questo ha implicazioni su quanto bene RLVR si scalerà, oltre ad aiutarci a capire perché il self-play e l'apprendimento curricolare siano così utili per RL, perché i modelli RLed sono bizzarramente frastagliati e come possiamo pensare a cosa fanno gli esseri umani in modo diverso. Link qui sotto.

35,14K

Dwarkesh Patel19 nov, 00:49

Come facciamo a tenere conto dell'estrema irregolarità indotta da RLVR? Com'è possibile avere modelli che sono di livello mondiale nelle competizioni di coding ma che allo stesso tempo lasciano bug e debito tecnico estremamente prevedibili in tutto il codice?

Dwarkesh Patel18 nov, 01:09

32,91K

Principali

Ranking

Preferiti