Das könnte mein Lieblingspapier des Jahres sein🤯 Rich Sutton behauptet, dass die aktuellen RL-Methoden uns nicht zum kontinuierlichen Lernen bringen werden, da sie nicht auf vorherigem Wissen aufbauen; jeder Rollout beginnt von neuem. Forscher in der Schweiz stellen Meta-RL vor, das diesen Code knacken könnte. Optimieren über Episoden mit einem Meta-Lernziel, das die Agenten dann dazu anregt, zuerst zu erkunden und dann auszunutzen. Und dann über frühere Misserfolge für zukünftige Agentenläufe nachzudenken. Unglaubliche Ergebnisse und insgesamt eine unglaubliche Lektüre eines Papiers. Autoren: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic