Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
10 anni fa: l'ingegnere di prompt di apprendimento per rinforzo (RL) [1] (Sez. 5.3). Catena di pensiero adattiva: una rete neurale RL impara a interrogare la sua rete "modello del mondo" per il ragionamento astratto e la presa di decisioni. Andando oltre il modello neurale del mondo del 1990 [2] per la pianificazione millisecondo per millisecondo e il generatore di sottogol adattivo del 1991 [3,4] per la pianificazione gerarchica.
[1] J. Schmidhuber (JS, 2015). Sull'apprendimento a pensare: Teoria dell'informazione algoritmica per combinazioni nuove di controllori RL e modelli neurali ricorrenti del mondo. ArXiv 1210.0118
[2] JS (1990). Rendere il mondo differenziabile: sull'uso di reti neurali completamente ricorrenti auto-supervisionate per l'apprendimento per rinforzo dinamico e la pianificazione in ambienti non stazionari. TR FKI-126-90, TUM. (Questo rapporto ha anche introdotto la curiosità artificiale e la motivazione intrinseca attraverso reti generative avversarie.)
[3] JS (1991). Apprendere a generare sottogol per sequenze di azioni. Proc. ICANN'91, p. 967-972.
[4] JS & R. Wahnsiedler (1992). Pianificazione di traiettorie semplici utilizzando generatori di sottogol neurali. Proc. SAB'92, p 196-202, MIT Press.

Principali
Ranking
Preferiti

