Novo post no blog. Recentemente, as pessoas têm falado sobre como exige muito mais processamento para obter uma única amostra no RL do que no pré-treinamento. Mas isso é só metade do problema. No RL, essa amostra cara geralmente também te dá muito menos bits. E isso tem implicações para o quão bem o RLVR vai escalar, além de nos ajudar a entender por que o auto-jogo e o aprendizado curricular são tão úteis para o RL, por que os modelos RL são estranhamente irregulares e como podemos pensar sobre o que os humanos fazem diferente. Link abaixo.