Quería entender mejor cómo funciona el RL en los LLMs. Así que escribí un script simple para enseñar a Nanochat a sumar números de 5 dígitos. Me sorprendió lo rápido que aprendió. Hasta que miré las generaciones del modelo y me di cuenta de que solo había aprendido a llamar siempre al intérprete de Python incorporado 😂. El código que escribí es muy básico, mínimo e ineficiente - soy un podcaster profesional, ¿de acuerdo? Pero podría ser útil si solo quieres ver lo básico de cómo funcionan REINFORCE o GRPO. Enlace al gist abajo. Fundamentalmente, no es tan complicado: genera múltiples trayectorias por cada aviso. Actualiza tu modelo para que sea más probable que muestree todos los tokens en las trayectorias exitosas.