dizer (atual) rl é terrível dizendo que precisamos de PRMs e treinamento adversário (sic: MuZero) lamentando o colapso da entropia e explicando a necessidade de preservar a entropia no treinamento e na amostragem querendo atenção esparsa (e atenção camada esparsa sobre kvcache)