10 лет назад: инженер по запросам в области обучения с подкреплением (RL) [1] (Раздел 5.3). Адаптивная цепочка размышлений: нейронная сеть RL учится запрашивать свою "модель мира" для абстрактного рассуждения и принятия решений. Выходя за пределы нейронной модели мира 1990 года [2] для планирования с миллисекундной точностью и адаптивного генератора подцелей 1991 года [3,4] для иерархического планирования. [1] J. Schmidhuber (JS, 2015). Обучение мыслить: Алгоритмическая теория информации для новых комбинаций контроллеров RL и рекуррентных нейронных моделей мира. ArXiv 1210.0118 [2] JS (1990). Сделать мир дифференцируемым: о использовании полностью рекуррентных самонастраивающихся нейронных сетей для динамического обучения с подкреплением и планирования в нестационарных средах. TR FKI-126-90, TUM. (Этот отчет также представил искусственное любопытство и внутреннюю мотивацию через генеративные состязательные сети.) [3] JS (1991). Обучение генерации подцелей для последовательностей действий. Proc. ICANN'91, стр. 967-972. [4] JS и R. Wahnsiedler (1992). Планирование простых траекторий с использованием нейронных генераторов подцелей. Proc. SAB'92, стр. 196-202, MIT Press.