Dit zou wel eens mijn favoriete paper van het jaar kunnen zijn🤯 Rich Sutton beweert dat de huidige RL-methoden ons niet naar continue leren zullen brengen omdat ze niet voortbouwen op eerdere kennis; elke rollout begint vanaf nul. Onderzoekers in Zwitserland introduceren Meta-RL, wat die code zou kunnen kraken. Optimaliseer over episodes met een meta-leerdoel, wat agents vervolgens aanmoedigt om eerst te verkennen en daarna te exploiteren. En dan reflecteren op eerdere mislukkingen voor toekomstige agentruns. Incredible resultaten en een ongelooflijke leeservaring van een paper in het algemeen. Auteurs: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic