nowy wpis na blogu po długim czasie! w tej serii będę mówić o tym, jak rozwiązać uczenie przez wzmocnienie dla zadań długoterminowych, stopniowo od najprostszych podejść. (link w odpowiedziach!) w części I tej serii rzucamy RL na sześcian w jego najprostszej, nieprzyozdobionej formie i uzbrajamy samą porażkę. celem tego bloga jest obserwowanie, jak RL footguns strzelają w zwolnionym tempie i jak rzadkość nagród zamienia się w koszmar załamania polityki, dlaczego eksploracja może dusić się w długoterminowych przestrzeniach oraz co się dzieje za kulisami, gdy model brzmi pewnie, pozostając jednocześnie fundamentalnie zagubionym! szczególne podziękowania dla @willccbb i @PrimeIntellect za sponsorowanie tego :) verifiers to niesamowite narzędzie i życzę im wszystkiego najlepszego.