Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Novo post no blog. Recentemente, as pessoas têm falado sobre como leva muito mais poder computacional para obter uma única amostra em RL do que em pré-treinamento.
Mas isso é apenas metade do problema.
Em RL, essa amostra cara também costuma fornecer muito menos bits.
E isso tem implicações para a forma como o RLVR irá escalar, além de nos ajudar a entender por que o auto-jogo e o aprendizado por currículos são tão úteis para RL, por que os modelos RLed são estranhamente irregulares e como podemos pensar sobre o que os humanos fazem de diferente.
Link abaixo.

Top
Classificação
Favoritos

