Hace 10 años: el ingeniero de prompts de aprendizaje por refuerzo (RL) [1] (Sec. 5.3). Cadena de pensamiento adaptativa: una red neuronal RL aprende a consultar su red de "modelo del mundo" para el razonamiento abstracto y la toma de decisiones. Yendo más allá del modelo del mundo neuronal de 1990 [2] para la planificación milisegundo a milisegundo y el generador de subobjetivos neuronales adaptativos de 1991 [3,4] para la planificación jerárquica. [1] J. Schmidhuber (JS, 2015). Sobre aprender a pensar: Teoría de la información algorítmica para combinaciones novedosas de controladores RL y modelos del mundo neuronales recurrentes. ArXiv 1210.0118 [2] JS (1990). Haciendo el mundo diferenciable: Sobre el uso de redes neuronales auto-supervisadas totalmente recurrentes para el aprendizaje por refuerzo dinámico y la planificación en entornos no estacionarios. TR FKI-126-90, TUM. (Este informe también introdujo la curiosidad artificial y la motivación intrínseca a través de redes generativas adversariales.) [3] JS (1991). Aprendiendo a generar subobjetivos para secuencias de acción. Proc. ICANN'91, p. 967-972. [4] JS y R. Wahnsiedler (1992). Planificación de trayectorias simples utilizando generadores de subobjetivos neuronales. Proc. SAB'92, p 196-202, MIT Press.