Å si (nåværende) RL er forferdelig sier at vi trenger PRM-er og kontradiktorisk trening (sic: MuZero) beklage entropikollaps og forklare behovet for å bevare entropi i trening og prøvetaking ønsker sparsom oppmerksomhet (og attn sparsomt lag over kvcache)