Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Novo post no blog. Recentemente, as pessoas têm falado sobre como exige muito mais processamento para obter uma única amostra no RL do que no pré-treinamento.
Mas isso é só metade do problema.
No RL, essa amostra cara geralmente também te dá muito menos bits.
E isso tem implicações para o quão bem o RLVR vai escalar, além de nos ajudar a entender por que o auto-jogo e o aprendizado curricular são tão úteis para o RL, por que os modelos RL são estranhamente irregulares e como podemos pensar sobre o que os humanos fazem diferente.
Link abaixo.

Melhores
Classificação
Favoritos

