Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nueva entrada en el blog. Últimamente, la gente ha estado hablando de que se necesita mucho más cálculo para obtener una sola muestra en RL que en el preentrenamiento.
Pero esto es solo la mitad del problema.
En RL, esa muestra cara suele darte muchos menos bits.
Y esto tiene implicaciones sobre lo bien que escalará RLVR, además de ayudarnos a entender por qué el autojuego y el aprendizaje curricular son tan útiles para la vida real, por qué los modelos RL son extrañamente irregulares y cómo podemos pensar en lo que los humanos hacen diferente.
Enlace abajo.

Populares
Ranking
Favoritas

