decir (actual) rl es terrible diciendo que necesitamos PRM y entrenamiento adversario (sic: MuZero) lamentando el colapso de la entropía y explicando la necesidad de preservar la entropía en el entrenamiento y el muestreo Querer atención escasa (y atención capa dispersa sobre kvcache)