10 anos atrás: o engenheiro de prompts de aprendizado por reforço (RL) [1] (Seção 5.3). Cadeia de pensamento adaptativa: uma rede neural RL aprende a consultar sua rede de "modelo mundial" para raciocínio abstrato e tomada de decisão. Indo além do modelo neural world de 1990 [2] para planejamento milissegundo a milissegundo e do gerador adaptativo de subobjetivos neurais de 1991 [3,4] para planejamento hierárquico. [1] J. Schmidhuber (JS, 2015). Sobre Aprender a Pensar: Teoria da Informação Algorítmica para Combinações Inovadoras de Controladores RL e Modelos Recorrentes de Mundos Neurais. ArXiv 1210.0118 [2] JS (1990). Tornando o mundo diferenciável: Sobre o uso de redes neurais auto-supervisionadas totalmente recorrentes para aprendizado por reforço dinâmico e planejamento em ambientes não estacionários. TR FKI-126-90, TUM. (Este relatório também introduziu curiosidade artificial e motivação intrínseca por meio de redes generativas adversariais.) [3] JS (1991). Aprender a gerar subobjetivos para sequências de ação. Proc. ICANN'91, p. 967-972. [4] JS & R. Wahnsiedler (1992). Planejando trajetórias simples usando geradores neurais de subobjetivos. Proc. SAB'92, p. 196-202, MIT Press.