Novo post no blog. Recentemente, as pessoas têm falado sobre como leva muito mais poder computacional para obter uma única amostra em RL do que em pré-treinamento. Mas isso é apenas metade do problema. Em RL, essa amostra cara também costuma fornecer muito menos bits. E isso tem implicações para a forma como o RLVR irá escalar, além de nos ajudar a entender por que o auto-jogo e o aprendizado por currículos são tão úteis para RL, por que os modelos RLed são estranhamente irregulares e como podemos pensar sobre o que os humanos fazem de diferente. Link abaixo.