新的論文研究了光譜梯度方法(例如,Muon)在深度學習中的幫助時機: 1. 我們識別出深度學習中一種普遍存在的病態條件:後激活矩陣的穩定秩較低。 2. 然後我們解釋了為什麼光譜方法儘管如此仍然能表現良好。 長串討論