dire que le RL (apprentissage par renforcement) actuel est terrible dire que nous avons besoin de PRMs et d'entraînement adversarial (sic : MuZero) lamenter l'effondrement de l'entropie et expliquer la nécessité de préserver l'entropie dans l'entraînement et l'échantillonnage vouloir une attention sparse (et une couche d'attention sparse sur kvcache)