Novos estudos em papel sobre quando os métodos de gradiente espectral (por exemplo, Muon) ajudam no aprendizado profundo: 1. Identificamos uma forma generalizada de má condicionamento em AP: as matrizes pós-ativação têm baixa estabilidade de posto. 2. Em seguida, explicamos por que os métodos espectrais podem ter um bom desempenho apesar disso. Longa thread