10 anni fa: l'ingegnere di prompt di apprendimento per rinforzo (RL) [1] (Sez. 5.3). Catena di pensiero adattiva: una rete neurale RL impara a interrogare la sua rete "modello del mondo" per il ragionamento astratto e la presa di decisioni. Andando oltre il modello neurale del mondo del 1990 [2] per la pianificazione millisecondo per millisecondo e il generatore di sottogol adattivo del 1991 [3,4] per la pianificazione gerarchica. [1] J. Schmidhuber (JS, 2015). Sull'apprendimento a pensare: Teoria dell'informazione algoritmica per combinazioni nuove di controllori RL e modelli neurali ricorrenti del mondo. ArXiv 1210.0118 [2] JS (1990). Rendere il mondo differenziabile: sull'uso di reti neurali completamente ricorrenti auto-supervisionate per l'apprendimento per rinforzo dinamico e la pianificazione in ambienti non stazionari. TR FKI-126-90, TUM. (Questo rapporto ha anche introdotto la curiosità artificiale e la motivazione intrinseca attraverso reti generative avversarie.) [3] JS (1991). Apprendere a generare sottogol per sequenze di azioni. Proc. ICANN'91, p. 967-972. [4] JS & R. Wahnsiedler (1992). Pianificazione di traiettorie semplici utilizzando generatori di sottogol neurali. Proc. SAB'92, p 196-202, MIT Press.