Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
10 anos atrás: o engenheiro de prompts de aprendizado por reforço (RL) [1] (Seção 5.3). Cadeia de pensamento adaptativa: uma rede neural RL aprende a consultar sua rede de "modelo mundial" para raciocínio abstrato e tomada de decisão. Indo além do modelo neural world de 1990 [2] para planejamento milissegundo a milissegundo e do gerador adaptativo de subobjetivos neurais de 1991 [3,4] para planejamento hierárquico.
[1] J. Schmidhuber (JS, 2015). Sobre Aprender a Pensar: Teoria da Informação Algorítmica para Combinações Inovadoras de Controladores RL e Modelos Recorrentes de Mundos Neurais. ArXiv 1210.0118
[2] JS (1990). Tornando o mundo diferenciável: Sobre o uso de redes neurais auto-supervisionadas totalmente recorrentes para aprendizado por reforço dinâmico e planejamento em ambientes não estacionários. TR FKI-126-90, TUM. (Este relatório também introduziu curiosidade artificial e motivação intrínseca por meio de redes generativas adversariais.)
[3] JS (1991). Aprender a gerar subobjetivos para sequências de ação. Proc. ICANN'91, p. 967-972.
[4] JS & R. Wahnsiedler (1992). Planejando trajetórias simples usando geradores neurais de subobjetivos. Proc. SAB'92, p. 196-202, MIT Press.

Melhores
Classificação
Favoritos

