¡Nueva publicación de blog después de mucho tiempo! En esta serie hablaré sobre cómo resolver el aprendizaje por refuerzo para tareas de largo horizonte, de forma incremental desde los enfoques más sencillos. (¡enlace en las respuestas!) en la parte I de esta serie, lanzamos RL al cubo en su forma más directa y sin adornos y convertimos el fracaso en un arma. el objetivo de este blog es ver cómo las pistolas de RL disparan en cámara lenta y ver cómo la escasez de recompensas se convierte en una pesadilla de colapso de políticas, por qué la exploración puede asfixiarse en espacios de horizonte largo y qué sucede detrás de escena cuando un modelo suena confiado mientras permanece fundamentalmente perdido. Un agradecimiento especial a @willccbb y @PrimeIntellect por patrocinar este :) Verifiers es una herramienta increíble y les deseo lo mejor.