Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nueva entrada de blog. Recientemente, la gente ha estado hablando sobre cómo se necesita mucha más capacidad de cómputo para obtener una sola muestra en RL que en el preentrenamiento.
Pero este es solo la mitad del problema.
En RL, esa muestra costosa también suele darte muchos menos bits.
Y esto tiene implicaciones para cómo escalará RLVR, además de ayudarnos a entender por qué el autojuego y el aprendizaje por currículos son tan útiles para RL, por qué los modelos RLed son extrañamente irregulares y cómo podemos pensar en lo que los humanos hacen de manera diferente.
Enlace abajo.

Parte superior
Clasificación
Favoritos

