Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Há 10 anos: o engenheiro de prompt de aprendizagem por reforço (RL) [1] (Sec. 5.3). Cadeia de pensamento adaptativa: uma rede neural RL aprende a consultar sua rede "modelo do mundo" para raciocínio abstrato e tomada de decisão. Indo além do modelo neural do mundo de 1990 [2] para planejamento milissegundo a milissegundo e do gerador de subobjetivos neural adaptativo de 1991 [3,4] para planejamento hierárquico.
[1] J. Schmidhuber (JS, 2015). Sobre Aprender a Pensar: Teoria da Informação Algorítmica para Novas Combinações de Controladores RL e Modelos de Mundo Neurais Recorrentes. ArXiv 1210.0118
[2] JS (1990). Tornando o mundo diferenciável: Sobre o uso de redes neurais totalmente recorrentes auto-supervisionadas para aprendizagem por reforço dinâmica e planejamento em ambientes não estacionários. TR FKI-126-90, TUM. (Este relatório também introduziu curiosidade artificial e motivação intrínseca através de redes adversariais generativas.)
[3] JS (1991). Aprendendo a gerar subobjetivos para sequências de ações. Proc. ICANN'91, p. 967-972.
[4] JS & R. Wahnsiedler (1992). Planejando trajetórias simples usando geradores de subobjetivos neurais. Proc. SAB'92, p 196-202, MIT Press.

Top
Classificação
Favoritos

