Queria obter melhores intuições de como o RL funciona em LLMs. Então eu escrevi um script simples para ensinar o Nanochat a adicionar números de 5 dígitos. Fiquei surpreso com a rapidez com que aprendeu. Até que olhei para as gerações do modelo e percebi que ele tinha acabado de aprender a sempre chamar o interpretador 😂 Python embutido. O código que escrevi é muito corretivo, mínimo e ineficiente - sou um podcaster profissional, certo? Mas pode ser útil se você quiser apenas ver o básico de como REFORÇAR ou GRPO funcionam. Link para a essência abaixo. Fundamentalmente, não é tão complicado: gere várias trajetórias por prompt. Atualize seu modelo para aumentar a probabilidade de que ele obtenha amostras de todos os tokens nas trajetórias bem-sucedidas.