Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il y a 10 ans : l'ingénieur en prompt de l'apprentissage par renforcement (RL) [1] (Sec. 5.3). Chaîne de pensée adaptative : un réseau de neurones RL apprend à interroger son réseau "modèle du monde" pour le raisonnement abstrait et la prise de décision. Allant au-delà du modèle du monde neuronal de 1990 [2] pour la planification milliseconde par milliseconde et du générateur de sous-objectifs neuronaux adaptatif de 1991 [3,4] pour la planification hiérarchique.
[1] J. Schmidhuber (JS, 2015). Sur l'apprentissage à penser : théorie de l'information algorithmique pour des combinaisons nouvelles de contrôleurs RL et de modèles du monde neuronaux récurrents. ArXiv 1210.0118
[2] JS (1990). Rendre le monde différentiable : sur l'utilisation de réseaux de neurones entièrement récurrents auto-supervisés pour l'apprentissage par renforcement dynamique et la planification dans des environnements non stationnaires. TR FKI-126-90, TUM. (Ce rapport a également introduit la curiosité artificielle et la motivation intrinsèque à travers des réseaux antagonistes génératifs.)
[3] JS (1991). Apprendre à générer des sous-objectifs pour des séquences d'actions. Proc. ICANN'91, p. 967-972.
[4] JS & R. Wahnsiedler (1992). Planification de trajectoires simples à l'aide de générateurs de sous-objectifs neuronaux. Proc. SAB'92, p 196-202, MIT Press.

Meilleurs
Classement
Favoris

