Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ønsket å få bedre intuisjoner for hvordan RL fungerer på LLM-er.
Så jeg skrev et enkelt skript for å lære Nanochat å legge til 5-sifrede tall.
Jeg ble overrasket over hvor raskt den lærte.
Helt til jeg så på modellens generasjoner og innså at den nettopp hadde lært å alltid ringe den innebygde Python-tolken 😂 .
Koden jeg skrev er veldig utbedrende, minimal og ineffektiv - jeg er en profesjonell podcaster, ok?
Men det kan være nyttig hvis du bare vil se det grunnleggende om hvordan REINFORCEMENT eller GRPO fungerer. Lenke til kjernen nedenfor.
I utgangspunktet er det ikke så komplisert: generer flere baner per forespørsel. Oppdater modellen for å gjøre det mer sannsynlig at den sampler alle tokenene i de vellykkede forløpene.

Topp
Rangering
Favoritter