Nuevos estudios estudian cuando los métodos de gradiente espectral (por ejemplo, Muon) ayudan en el aprendizaje profundo: 1. Identificamos una forma generalizada de mal condicionamiento en DL: las matrices post-activaciones tienen rango bajo y estable. 2. Luego explicamos por qué los métodos espectrales pueden funcionar bien a pesar de esto. Hilo largo