новый блог после долгого времени! в этой серии я буду говорить о том, как решить задачи обучения с подкреплением для долгосрочных задач, постепенно от самых простых подходов. (ссылка в ответах!) в первой части этой серии мы бросаем RL на куб в его самой прямой, неотфильтрованной форме и используем саму неудачу как оружие. цель этого блога - наблюдать, как RL-ошибки стреляют в замедленной съемке и видеть, как разреженность вознаграждений превращается в кошмар коллапса политики, почему исследование может задохнуться в долгосрочных пространствах и что происходит за кулисами, когда модель звучит уверенно, оставаясь при этом в корне потерянной! особая благодарность @willccbb и @PrimeIntellect за спонсорство этого :) verifiers - это невероятный инструмент, и я желаю им всего наилучшего.