Нові наукові дослідження, коли методи спектрального градієнта (наприклад, Muon) допомагають у глибокому навчанні: 1. Ми виявляємо поширену форму неправильного кондиціонування в DL: матриці після активації мають низькостабільний ранг. 2. Далі ми пояснюємо, чому спектральні методи можуть добре працювати, незважаючи на це. Довга нитка