قد تكون هذه صحيفتي المفضلة لهذا العام🤯 يدعي ريتش ساتون أن طرق التعلم المعزز الحالية لن تجعلنا نتعلم مستمرا لأنها لا تتراكم على المعرفة السابقة، فكل عملية نشر تبدأ من الصفر. يقدم باحثون في سويسرا تقنية Meta-RL التي قد تفكك هذا الشيفرة. قم بتحسين الحلقات مع هدف التعلم الفوقي، مما يحفز الوكلاء على الاستكشاف أولا ثم الاستغلال. ثم تأمل في الإخفاقات السابقة في جولات العملاء المستقبلية. نتائج مذهلة وقراءة رائعة لورقة بشكل عام. المؤلفون: @YulunJiang @LiangzeJ @DamienTeney @Michael_D_Moor @mariabrbic