Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Quería entender mejor cómo funciona el RL en los LLMs.
Así que escribí un script simple para enseñar a Nanochat a sumar números de 5 dígitos.
Me sorprendió lo rápido que aprendió.
Hasta que miré las generaciones del modelo y me di cuenta de que solo había aprendido a llamar siempre al intérprete de Python incorporado 😂.
El código que escribí es muy básico, mínimo e ineficiente - soy un podcaster profesional, ¿de acuerdo?
Pero podría ser útil si solo quieres ver lo básico de cómo funcionan REINFORCE o GRPO. Enlace al gist abajo.
Fundamentalmente, no es tan complicado: genera múltiples trayectorias por cada aviso. Actualiza tu modelo para que sea más probable que muestree todos los tokens en las trayectorias exitosas.

Parte superior
Clasificación
Favoritos