Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je voulais mieux comprendre comment le RL fonctionne sur les LLMs.
Alors j'ai écrit un script simple pour apprendre à Nanochat à additionner des nombres à 5 chiffres.
J'ai été surpris de la rapidité avec laquelle il a appris.
Jusqu'à ce que je regarde les générations du modèle et que je réalise qu'il avait juste appris à toujours appeler l'interpréteur Python intégré 😂.
Le code que j'ai écrit est très basique, minimal et inefficace - je suis un podcasteur professionnel, d'accord ?
Mais cela pourrait être utile si vous voulez juste voir les bases de comment REINFORCE ou GRPO fonctionnent. Lien vers le gist ci-dessous.
Fondamentalement, ce n'est pas si compliqué : générez plusieurs trajectoires par prompt. Mettez à jour votre modèle pour qu'il soit plus probable qu'il échantillonne tous les tokens dans les trajectoires réussies.

Meilleurs
Classement
Favoris