10 jaar geleden: de reinforcement learning (RL) prompt engineer [1] (Sectie 5.3). Adaptieve keten van gedachten: een RL-neuraal netwerk leert zijn "wereldmodel" netwerk te raadplegen voor abstract redeneren en besluitvorming. Voorbij het neurale wereldmodel uit 1990 [2] voor milliseconde-voor-milliseconde planning en de adaptieve neurale subdoelgenerator uit 1991 [3,4] voor hiërarchische planning. [1] J. Schmidhuber (JS, 2015). Over leren denken: Algoritmische Informatie Theorie voor nieuwe combinaties van RL-controllers en terugkerende neurale wereldmodellen. ArXiv 1210.0118 [2] JS (1990). De wereld differentieerbaar maken: Over het gebruik van volledig terugkerende zelf-gecontroleerde neurale netwerken voor dynamische reinforcement learning en planning in niet-stationaire omgevingen. TR FKI-126-90, TUM. (Dit rapport introduceerde ook kunstmatige nieuwsgierigheid en intrinsieke motivatie door middel van generatieve adversariële netwerken.) [3] JS (1991). Leren om subdoelen te genereren voor actie-sequenties. Proc. ICANN'91, p. 967-972. [4] JS & R. Wahnsiedler (1992). Eenvoudige trajecten plannen met behulp van neurale subdoelgeneratoren. Proc. SAB'92, p 196-202, MIT Press.