mówiąc, że (aktualny) rl jest okropny mówiąc, że potrzebujemy PRM-ów i treningu adwersarialnego (sic: MuZero) żałując kolapsu entropii i wyjaśniając potrzebę zachowania entropii w treningu i próbkowaniu chcąc rzadkiej uwagi (i warstwy uwagi rzadkiej nad kvcache)