Нова публікація в блозі через довгий час! У цій серії я розповім про те, як вирішувати навчання з підкріпленням для завдань з довгим горизонтом, поступово з найпростіших підходів. (посилання у відповідях!) У першій частині цієї серії ми кидаємо RL на куб у його найпрямішій, неприкрашеній формі та зображуємо саму невдачу як зброю. мета цього блогу — спостерігати за тим, як пістолети RL стріляють у сповільненій зйомці, і побачити, як розрідженість винагород перетворюється на кошмар колапсу політики, чому дослідження може задихнутися в просторах з далеким горизонтом, і що відбувається за лаштунками, коли модель звучить впевнено, залишаючись при цьому принципово втраченою! Особлива подяка @willccbb та @PrimeIntellect за спонсорську підтримку цього :) Верифікатори – це неймовірний інструмент, і я бажаю їм всього найкращого.