今年の私のお気に入りの論文🤯かもしれません リッチ・サットンは、現在の強化学習の手法では、既存の知識を積み重ねるものではなく、すべての展開がゼロから始まるため、継続的な学習にはつながらないと主張しています。 スイスの研究者たちはMeta-RLを導入し、そのコードを解読するかもしれません。エピソード間を最適化し、メタラーニングの目的を持ち、エージェントがまず探索し、その後活用するインセンティブを与えます。そして今後のエージェントランのために過去の失敗を振り返る。 信じられないほどの結果と、全体的に論文の読解体験も素晴らしいです。 著者:@YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic