Tohle může být můj nejoblíbenější článek roku🤯 Rich Sutton tvrdí, že současné metody RL nás nepřivedou k neustálému učení, protože nenavazují na předchozí znalosti, každé zavádění začíná od nuly. Výzkumníci ve Švýcarsku představují Meta-RL, který by mohl tento kód rozluštit. Optimalizujte napříč epizodami s meta-learningovým cílem, který pak motivuje agenty nejprve prozkoumávat a teprve je využívat. A pak se zamyslete nad předchozími neúspěchy pro budoucí agentní běhy. Neuvěřitelné výsledky a neuvěřitelné čtení článku celkově. Autoři: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic