Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Halusin saada paremman intuition siitä, miten RL toimii LLM:issä.
Joten kirjoitin yksinkertaisen käsikirjoituksen opettaakseni Nanochatia lisäämään 5-numeroisia numeroita.
Olin yllättynyt siitä, kuinka nopeasti se oppi.
Kunnes katsoin mallin sukupolvia ja tajusin, että se oli juuri oppinut aina kutsumaan sisäänrakennettua Python-tulkkia 😂.
Kirjoittamani koodi on erittäin korjaava, minimaalinen ja tehoton - olen ammattimainen podcaster, okei?
Mutta siitä voi olla apua, jos haluat vain nähdä LUJITUKSEN tai GRPO:n toiminnan perusteet. Linkki ytimeen alla.
Pohjimmiltaan se ei ole niin monimutkaista: luo useita lentoratoja kehotetta kohden. Päivitä mallisi, jotta on todennäköisempää, että se ottaa näytteen kaikista onnistuneiden kehityspolkujen tunnuksista.

Johtavat
Rankkaus
Suosikit