Quería obtener mejores intuiciones sobre cómo funciona RL en LLM. Así que escribí un guión simple para enseñarle a Nanochat a sumar números de 5 dígitos. Me sorprendió lo rápido que aprendió. Hasta que miré las generaciones del modelo y me di cuenta de que acababa de aprender a llamar siempre al intérprete 😂 de Python incorporado. El código que escribí es muy correctivo, mínimo e ineficiente: soy un podcaster profesional, ¿de acuerdo? Pero podría ser útil si solo desea ver los conceptos básicos de cómo funcionan REINFORCED o GRPO. Enlace a la esencia a continuación. Fundamentalmente, no es tan complicado: generar múltiples trayectorias por mensaje. Actualice el modelo para que sea más probable que muestree todos los tokens en las trayectorias correctas.