zeggen dat (huidige) rl verschrikkelijk is zeggen dat we PRMs en adversarial training nodig hebben (sic: MuZero) klagen over entropie-inzakking en uitleggen dat het nodig is om entropie te behouden in training en sampling willen sparse attention (en attn sparse layer over kvcache)