久しぶりの新しいブログ投稿!このシリーズでは、最も単純なアプローチから段階的に、長期タスクの強化学習を解く方法について説明します。(返信にリンクしてください! このシリーズのパート I では、RL を最も直接的で飾り気のない形で立方体に投げ込み、失敗そのものを武器にします。このブログの目的は、RL フットガンがスローモーションで発砲するのを見て、報酬のまばらさがどのように政策崩壊の悪夢に変わるのか、なぜ長い地平線の空間で探索が窒息するのか、そしてモデルが根本的に迷ったまま自信を持っているように聞こえる場合、舞台裏で何が起こるかを確認することです。 この:)を後援してくださった@willccbbと@PrimeIntellectに特に感謝しますVerifiers は素晴らしいツールであり、彼らの幸運を祈っています。