Ten dowód przez chatgpt jest naprawdę fajny i przekracza to, co myślałem, że można rozwiązać za pomocą jednego zapytania do gpt pro.
Zastanawiam się jednak, ile problemów Erdos będzie następować po twierdzeniu Erdosa.
Rozwiązałem drugi problem Erdősa (#281) używając tylko GPT 5.2 Pro - nie znaleziono wcześniejszych rozwiązań.
Terence Tao nazywa to "może najbardziej jednoznacznym przypadkiem" rozwiązania problemu otwartego przez AI:
Nowe badania dotyczące tego, kiedy metody gradientu spektralnego (np. Muon) pomagają w uczeniu głębokim:
1. Identyfikujemy powszechny rodzaj złego uwarunkowania w DL: macierze po aktywacji mają niską stabilność rangi.
2. Następnie wyjaśniamy, dlaczego metody spektralne mogą działać dobrze pomimo tego.
Długa dyskusja
Podczas programu LLM Simona w zeszłym roku, @mahdisoltanol zapytał, czy ta nierówność jest prawdziwa dla rozkładów p i q:
Dₖₗ(p,q) · ∑ᵢ pᵢ(pᵢ−qᵢ) ≤ ∑ᵢ pᵢ · (pᵢ−qᵢ) ln(pᵢ/qᵢ)
Kilku z nas obsesyjnie zajmowało się tą granicą. Pamiętam, że @jasondeanlee siedział do późna, szukając kontrprzykładów.
GPT-5 Pro znalazł kontrprzykład dla optymalności większości NICD z usunięciami (lista Simonsa, s. 25).
Dla p=0.4, n=5, f(x) = sign(x_1-3x_2+x_3-x_4+3x_5) daje E|f(x)|=0.43024 w porównaniu do najlepszej większości 0.42904.