Nueva entrada de blog. Recientemente, la gente ha estado hablando sobre cómo se necesita mucha más capacidad de cómputo para obtener una sola muestra en RL que en el preentrenamiento. Pero este es solo la mitad del problema. En RL, esa muestra costosa también suele darte muchos menos bits. Y esto tiene implicaciones para cómo escalará RLVR, además de ayudarnos a entender por qué el autojuego y el aprendizaje por currículos son tan útiles para RL, por qué los modelos RLed son extrañamente irregulares y cómo podemos pensar en lo que los humanos hacen de manera diferente. Enlace abajo.