Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hace 10 años: el ingeniero de prompts de aprendizaje por refuerzo (RL) [1] (Sec. 5.3). Cadena de pensamiento adaptativa: una red neuronal RL aprende a consultar su red de "modelo del mundo" para el razonamiento abstracto y la toma de decisiones. Yendo más allá del modelo del mundo neuronal de 1990 [2] para la planificación milisegundo a milisegundo y el generador de subobjetivos neuronales adaptativos de 1991 [3,4] para la planificación jerárquica.
[1] J. Schmidhuber (JS, 2015). Sobre aprender a pensar: Teoría de la información algorítmica para combinaciones novedosas de controladores RL y modelos del mundo neuronales recurrentes. ArXiv 1210.0118
[2] JS (1990). Haciendo el mundo diferenciable: Sobre el uso de redes neuronales auto-supervisadas totalmente recurrentes para el aprendizaje por refuerzo dinámico y la planificación en entornos no estacionarios. TR FKI-126-90, TUM. (Este informe también introdujo la curiosidad artificial y la motivación intrínseca a través de redes generativas adversariales.)
[3] JS (1991). Aprendiendo a generar subobjetivos para secuencias de acción. Proc. ICANN'91, p. 967-972.
[4] JS y R. Wahnsiedler (1992). Planificación de trayectorias simples utilizando generadores de subobjetivos neuronales. Proc. SAB'92, p 196-202, MIT Press.

Parte superior
Clasificación
Favoritos

