Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
For 10 år siden: Reinforcement Learning (RL) prompt-ingeniøren [1] (Avsnitt 5.3). Adaptiv tankekjede: et virkelighetsorientert nevralt nett lærer å spørre sitt "verdensmodell"-nett for abstrakt resonnement og beslutningstaking. Å gå utover 1990-modellen for nevral verden [2] for millisekund-for-millisekund-planlegging og 1991-modellen for adaptiv nevral delmålgenerator [3,4] for hierarkisk planlegging.
[1] J. Schmidhuber (JS, 2015). Om å lære å tenke: Algoritmisk informasjonsteori for nye kombinasjoner av RL-kontrollere og rekurrente nevrale verdenmodeller. ArXiv 1210.0118
[2] JS (1990). Å gjøre verden differensierbar: Om bruk av fullt tilbakevendende, selvsuperviserte nevrale nettverk for dynamisk forsterkningslæring og planlegging i ikke-stasjonære miljøer. TR FKI-126-90, TUM. (Denne rapporten introduserte også kunstig nysgjerrighet og indre motivasjon gjennom generative adversarielle nettverk.)
[3] JS (1991). Å lære å lage delmål for actionsekvenser. Proc. ICANN'91, s. 967-972.
[4] JS & R. Wahnsiedler (1992). Planlegging av enkle baner ved bruk av nevrale delmålgeneratorer. Proc. SAB'92, s. 196-202, MIT Press.

Topp
Rangering
Favoritter

