Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chtěl jsem získat lepší intuice pro to, jak RL funguje na LLM.
Tak jsem napsal jednoduchý skript, který naučí Nanochat sčítat 5místná čísla.
Byl jsem překvapen, jak rychle se učil.
Dokud jsem se nepodíval na generace modelu a neuvědomil si, že se právě naučil vždy volat vestavěný interpret 😂 Pythonu .
Kód, který jsem napsal, je velmi nápravný, minimální a neefektivní - jsem profesionální podcaster, ano?
Ale může to být užitečné, pokud chcete vidět jen základy toho, jak REINFORCED nebo GRPO fungují. Odkaz na podstatu níže.
V zásadě to není tak složité: vygenerovat více trajektorií na výzvu. Aktualizujte svůj model, aby bylo pravděpodobnější, že vzorkuje všechny tokeny v úspěšných trajektoriích.

Top
Hodnocení
Oblíbené