Цей доказ від chatGPT насправді цікавий і перевершує те, що я думав, що можна розв'язати одним запитом до gpt pro.
Проте мені цікаво, скільки задач Ердоша будуть наступними теоремою Ердоша.
Я вирішив другу проблему Erdos (#281), використавши лише GPT 5.2 Pro — попередніх рішень не знайшли.
Теренс Тао називає це «можливо, найоднозначнішим випадком» розв'язання відкритої проблеми ШІ:
Нові наукові дослідження, коли методи спектрального градієнта (наприклад, Muon) допомагають у глибокому навчанні:
1. Ми виявляємо поширену форму неправильного кондиціонування в DL: матриці після активації мають низькостабільний ранг.
2. Далі ми пояснюємо, чому спектральні методи можуть добре працювати, незважаючи на це.
Довга нитка
Під час програми Simons LLM минулої осені @mahdisoltanol запитав, чи вірний цей недолік для дистрибутива. Р і З:
Dkl(p,q) · ∑i pi(pi−qi) ≤ ∑i pi · (pi−qi) ln(pi/qi)
Дехто з нас став одержимий зв'язаним. Пам'ятаю, @jasondeanlee засиджувався допізна, шукаючи контрприклади.
GPT-5 Pro found a counterexample to the NICD-with-erasures majority optimality (Simons list, p.25).
At p=0.4, n=5, f(x) = sign(x_1-3x_2+x_3-x_4+3x_5) gives E|f(x)|=0.43024 vs best majority 0.42904.