Nieuwe paper bestudeert wanneer spectrale gradientmethoden (bijv. Muon) helpen in deep learning: 1. We identificeren een wijdverspreide vorm van slechte conditionering in DL: post-activaties matrices hebben een lage stabiele rang. 2. We leggen vervolgens uit waarom spectrale methoden goed kunnen presteren ondanks dit. Lange thread