Je voulais mieux comprendre comment le RL fonctionne sur les LLMs. Alors j'ai écrit un script simple pour apprendre à Nanochat à additionner des nombres à 5 chiffres. J'ai été surpris de la rapidité avec laquelle il a appris. Jusqu'à ce que je regarde les générations du modèle et que je réalise qu'il avait juste appris à toujours appeler l'interpréteur Python intégré 😂. Le code que j'ai écrit est très basique, minimal et inefficace - je suis un podcasteur professionnel, d'accord ? Mais cela pourrait être utile si vous voulez juste voir les bases de comment REINFORCE ou GRPO fonctionnent. Lien vers le gist ci-dessous. Fondamentalement, ce n'est pas si compliqué : générez plusieurs trajectoires par prompt. Mettez à jour votre modèle pour qu'il soit plus probable qu'il échantillonne tous les tokens dans les trajectoires réussies.