novo post no blog após muito tempo! nesta série, vou falar sobre como resolver o aprendizado por reforço para tarefas de longo prazo, de forma incremental, a partir das abordagens mais simples. (link nas respostas!) na parte I desta série, lançamos o aprendizado por reforço no cubo em sua forma mais direta e crua e armamos o próprio fracasso. o objetivo deste blog é observar os erros do aprendizado por reforço dispararem em câmera lenta e ver como a escassez de recompensas se transforma em um pesadelo de colapso de políticas, por que a exploração pode sufocar em espaços de longo prazo e o que acontece nos bastidores quando um modelo parece confiante enquanto permanece fundamentalmente perdido! agradecimentos especiais a @willccbb e @PrimeIntellect por patrocinar isto :) verifiers é uma ferramenta incrível e desejo-lhes o melhor.