10 vuotta sitten: vahvistusoppimisen (RL) prompt-insinööri [1] (Kohta 5.3). Adaptiivinen ajatusketju: RL-neuroverkko oppii kysymään "maailmanmalli"-verkkoaan abstraktin päättelyn ja päätöksenteon vuoksi. Mennään vuoden 1990 hermomaailman mallin [2] yli millisekunti millisekunnilta -suunnittelussa ja vuoden 1991 adaptiivisen neurollisen alitavoitegeneraattorin [3,4] hierarkkisen suunnittelun osalta. [1] J. Schmidhuber (JS, 2015). On Learning to Think: Algoritminen informaatioteoria uusille yhdistelmille RL-ohjaimista ja toistuvista hermomaailman malleista. ArXiv 1210.0118 [2] JS (1990). Maailman tekeminen differentioituvaksi: Täysin toistuvien itseohjattujen neuroverkkojen käytöstä dynaamiseen vahvistusoppimiseen ja suunnitteluun ei-stationaarisissa ympäristöissä. TR FKI-126-90, TUM. (Tämä raportti esitteli myös keinotekoisen uteliaisuuden ja sisäisen motivaation generatiivisten vastakkainasetteluverkostojen kautta.) [3] JS (1991). Opettelu luomaan alatavoitteita toimintakohtauksille. Proc. ICANN'91, s. 967-972. [4] JS & R. Wahnsiedler (1992). Yksinkertaisten lentoratojen suunnittelu hermoalatavoitegeneraattoreiden avulla. Proc. SAB'92, s. 196-202, MIT Press.