很久沒有更新的博客文章!在這個系列中,我將談論如何解決長期任務的強化學習,從最簡單的方法逐步開始。(鏈接在回覆中!) 在這個系列的第一部分,我們將強化學習應用於立方體,以最直接、最原始的形式,並將失敗本身武器化。這篇博客的目標是觀察強化學習的陷阱以慢動作發射,看看獎勵稀疏如何變成政策崩潰的噩夢,為什麼探索在長期空間中會窒息,以及當模型聽起來自信卻根本迷失時,幕後發生了什麼! 特別感謝 @willccbb 和 @PrimeIntellect 的贊助 :) verifiers 是一個令人難以置信的工具,祝他們一切順利。