dire che il rl (apprendimento per rinforzo) attuale è terribile dire che abbiamo bisogno di PRM e di addestramento avversariale (sic: MuZero) lamentare il collasso dell'entropia e spiegare la necessità di preservare l'entropia nell'addestramento e nel campionamento volere attenzione sparsa (e un livello di attenzione sparsa su kvcache)