decir que la RL (aprendizaje por refuerzo) actual es terrible decir que necesitamos PRMs y entrenamiento adversarial (sic: MuZero) lamentar el colapso de la entropía y explicar la necesidad de preservar la entropía en el entrenamiento y muestreo deseando atención dispersa (y una capa de atención dispersa sobre kvcache)