Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
10 років тому: інженер підказок підкріпленого навчання (RL) [1] (розділ 5.3). Адаптивний ланцюг мислення: нейронна мережа RL вчиться звертатися до своєї «світової моделі» для абстрактного мислення та прийняття рішень. Виходячи за межі моделі нейронного світу 1990 року [2] для планування мілісекунда за мілісекундою та адаптивного нейронного підцільного генератора 1991 року [3,4] для ієрархічного планування.
[1] Й. Шмідхубер (JS, 2015). Про навчання мислити: алгоритмічна теорія інформації для нових комбінацій RL-контролерів і моделей рекурентних нейронних світів. ArXiv 1210.0118
[2] JS (1990). Зробити світ диференційованим: про використання повністю рекурентних самоконтрольованих нейронних мереж для динамічного навчання та планування з підкріпленням у нестаціонарних середовищах. TR FKI-126-90, TUM. (У цьому звіті також були представлені штучна цікавість і внутрішня мотивація через генеративні суперницькі мережі.)
[3] JS (1991). Навчитися генерувати підцілі для екшн-послідовностей. Proc. ICANN'91, с. 967-972.
[4] Дж.С. і Р. Ванзідлер (1992). Планування простих траєкторій за допомогою генераторів нейронних підцілей. Proc. SAB'92, с. 196-202, MIT Press.

Найкращі
Рейтинг
Вибране

