Este pode ser meu artigo favorito do ano🤯 Rich Sutton afirma que os métodos atuais de RL não nos levam ao aprendizado contínuo porque não se baseiam em conhecimentos prévios, cada lançamento começa do zero. Pesquisadores na Suíça apresentam o Meta-RL, que pode decifrar esse código. Otimize entre os episódios com um objetivo de meta-aprendizado, que então incentive os agentes a explorar primeiro e depois explorar. E então reflita sobre falhas anteriores em futuras corridas de agentes. Resultados incríveis e leitura incrível de um artigo no geral. Autores: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic