قبل 10 سنوات: مهندس التعليمات بالتعلم المعزز (RL) [1] (القسم 5.3). سلسلة التفكير التكيفي: تتعلم شبكة عصبية في التعلم المعزز الاستعلام عن شبكة "نموذج العالم" الخاصة بها للاستدلال المجرد واتخاذ القرار. متجاوزين نموذج العالم العصبي لعام 1990 [2] للتخطيط بميلي ثانية ومولد الأهداف الفرعية العصبية التكيفية لعام 1991 [3,4] للتخطيط الهرمي. [1] ج. شميدهوبر (JS، 2015). حول تعلم التفكير: نظرية المعلومات الخوارزمية لتركيبات جديدة من وحدات تحكم التعلم المعزز ونماذج العوالم العصبية المتكررة. ArXiv 1210.0118 [2] JS (1990). جعل العالم قابلا للتمايز: حول استخدام الشبكات العصبية الذاتية الإشراف المتكررة بالكامل للتعلم والتخطيط الديناميكي لتعزيز البيئة غير الثابتة. TR FKI-126-90، TUM. (كما قدم هذا التقرير فضولا مصطنعا ودافعا جوهريا من خلال الشبكات العدائية التوليدية.) [3] JS (1991). تعلم كيفية توليد أهداف فرعية لمشاهد الحركة. مفاتيح: ICANN'91، ص. 967-972. [4] ج. س. & آر. وانسيدلر (1992). تخطيط مسارات بسيطة باستخدام مولدات الأهداف الفرعية العصبية. مفاتيح: SAB'92، ص، 196-202، مطبعة معهد ماساتشوستس للتكنولوجيا.