10 років тому: інженер підказок підкріпленого навчання (RL) [1] (розділ 5.3). Адаптивний ланцюг мислення: нейронна мережа RL вчиться звертатися до своєї «світової моделі» для абстрактного мислення та прийняття рішень. Виходячи за межі моделі нейронного світу 1990 року [2] для планування мілісекунда за мілісекундою та адаптивного нейронного підцільного генератора 1991 року [3,4] для ієрархічного планування. [1] Й. Шмідхубер (JS, 2015). Про навчання мислити: алгоритмічна теорія інформації для нових комбінацій RL-контролерів і моделей рекурентних нейронних світів. ArXiv 1210.0118 [2] JS (1990). Зробити світ диференційованим: про використання повністю рекурентних самоконтрольованих нейронних мереж для динамічного навчання та планування з підкріпленням у нестаціонарних середовищах. TR FKI-126-90, TUM. (У цьому звіті також були представлені штучна цікавість і внутрішня мотивація через генеративні суперницькі мережі.) [3] JS (1991). Навчитися генерувати підцілі для екшн-послідовностей. Proc. ICANN'91, с. 967-972. [4] Дж.С. і Р. Ванзідлер (1992). Планування простих траєкторій за допомогою генераторів нейронних підцілей. Proc. SAB'92, с. 196-202, MIT Press.