Nueva entrada en el blog. Últimamente, la gente ha estado hablando de que se necesita mucho más cálculo para obtener una sola muestra en RL que en el preentrenamiento. Pero esto es solo la mitad del problema. En RL, esa muestra cara suele darte muchos menos bits. Y esto tiene implicaciones sobre lo bien que escalará RLVR, además de ayudarnos a entender por qué el autojuego y el aprendizaje curricular son tan útiles para la vida real, por qué los modelos RL son extrañamente irregulares y cómo podemos pensar en lo que los humanos hacen diferente. Enlace abajo.