dizer que a RL (aprendizagem por reforço) atual é terrível dizer que precisamos de PRMs e treinamento adversarial (sic: MuZero) lamentar o colapso da entropia e explicar a necessidade de preservar a entropia no treinamento e amostragem querer atenção esparsa (e camada de atenção esparsa sobre kvcache)