Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jürgen Schmidhuber
Wynalezione zasady meta-uczenia (1987), GAN (1990), transformatorów (1991), bardzo głębokiego uczenia (1991), itp. Nasza sztuczna inteligencja jest używana wiele miliardów razy każdego dnia.
Kto wynalazł konwolucyjne sieci neuronowe (CNN)?
1969: Fukushima miał ReLU związane z CNN [2].
1979: Fukushima miał podstawową architekturę CNN z warstwami konwolucyjnymi i warstwami redukcji wymiarów [1]. Obliczenia były 100 razy droższe niż w 1989 roku, a miliard razy droższe niż dzisiaj.
1987: Waibel zastosował wagi dzielone w TDNN z jednowymiarowymi konwolucjami, korzystając z wstecznej propagacji Linnainmaa z 1970 roku [3] [4].
1988: Wei Zhang i in. zastosowali "nowoczesne" CNN trenowane wsteczną propagacją do rozpoznawania znaków [5].
Wszystko powyższe zostało opublikowane w Japonii w latach 1979-1988.
1989: LeCun i in. ponownie zastosowali CNN do rozpoznawania znaków (kodów pocztowych) [6,10].
1990-93: Redukcja wymiarów Fukushimy oparta na uśrednianiu przestrzennym [1] została zastąpiona przez max-pooling dla 1-D TDNN (Yamaguchi i in.) [7] oraz 2-D CNN (Weng i in.) [8].
2011: Dużo później, mój zespół z Danem Ciresanem sprawił, że max-pooling CNN stały się naprawdę szybkie na GPU NVIDIA. W 2011 roku DanNet osiągnął pierwszy superludzki wynik w rozpoznawaniu wzorców [9]. Przez pewien czas cieszył się monopolem: od maja 2011 do września 2012 DanNet wygrał każde wyzwanie w rozpoznawaniu obrazów, w tym 4 z rzędu. Należy jednak przyznać, że w dużej mierze chodziło o inżynierię i skalowanie podstawowych spostrzeżeń z poprzedniego tysiąclecia, korzystając z dużo szybszego sprzętu.
Niektórzy "eksperci AI" twierdzą, że "sprawienie, by CNN działały" (np. [5,6,9]) było tak samo ważne, jak ich wynalezienie. Ale "sprawienie, by działały" w dużej mierze zależało od tego, czy twoje laboratorium było wystarczająco bogate, aby kupić najnowsze komputery potrzebne do skalowania oryginalnej pracy. To samo dotyczy dzisiaj. Podstawowe badania vs inżynieria/rozwój - R vs D w R&D.
REFERENCJE
[1] K. Fukushima (1979). Model sieci neuronowej dla mechanizmu rozpoznawania wzorców, niepodlegającego przesunięciu pozycji — Neocognitron. Trans. IECE, vol. J62-A, nr 10, s. 658-665, 1979.
[2] K. Fukushima (1969). Ekstrakcja cech wizualnych przez sieć z wieloma warstwami elementów progowych analogowych. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Ta praca wprowadziła prostokątne jednostki liniowe (ReLU), obecnie używane w wielu CNN.
[3] S. Linnainmaa (1970). Praca magisterska, Uniwersytet w Helsinkach, 1970. Pierwsza publikacja na temat "nowoczesnej" wstecznej propagacji, znanej również jako odwrotna metoda automatycznej różnicowania. (Zobacz znany przegląd wstecznej propagacji Schmidhubera: "Kto wynalazł wsteczną propagację?")
[4] A. Waibel. Rozpoznawanie fonemów przy użyciu sieci neuronowych z opóźnieniem czasowym. Spotkanie IEICE, Tokio, Japonia, 1987. Wsteczna propagacja dla TDNN z wagami dzielonymi z jednowymiarowymi konwolucjami.
[5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Sieć neuronowa do rozpoznawania wzorców niezmiennych na przesunięcie i jej optyczna architektura. Proc. Annual Conference of the Japan Society of Applied Physics, 1988. Pierwsze CNN trenowane wsteczną propagacją w 2 wymiarach, z zastosowaniami do rozpoznawania znaków angielskich.
[6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Wsteczna propagacja zastosowana do rozpoznawania odręcznych kodów pocztowych, Neural Computation, 1(4):541-551, 1989. Zobacz także sekcję 3 [10].
[7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Sieć neuronowa do rozpoznawania izolowanych słów niezależnych od mówcy. Pierwsza Międzynarodowa Konferencja na temat Przetwarzania Języka Mówionego (ICSLP 90), Kobe, Japonia, listopad 1990. Jednowymiarowy TDNN z konwolucjami używającymi Max-Poolingu zamiast uśredniania przestrzennego Fukushimy [1].
[8] Weng, J., Ahuja, N., i Huang, T. S. (1993). Uczenie rozpoznawania i segmentacji obiektów 3D z obrazów 2D. Proc. 4th Intl. Conf. Computer Vision, Berlin, s. 121-128. Dwuwymiarowe CNN, których warstwy redukcji wymiarów używają Max-Poolingu (który stał się bardzo popularny) zamiast uśredniania przestrzennego Fukushimy [1].
[9] W 2011 roku szybkie i głębokie CNN oparte na GPU, zwane DanNet (7+ warstw), osiągnęły pierwszy superludzki wynik w konkursie wizji komputerowej. Zobacz przegląd: "2011: DanNet wywołuje rewolucję głębokich CNN."
[10] Jak 3 laureatów nagrody Turinga opublikowało kluczowe metody i pomysły, których twórców nie uznali. Raport techniczny IDSIA-23-23, Szwajcarskie Laboratorium AI IDSIA, 14 grudnia 2023. Zobacz także film na YouTube z ceremonii wręczenia nagrody Bower 2021: J. Schmidhuber chwali Kunihiko Fukushimę.

346,78K
Kto wynalazł propagację wsteczną (BP)? Jej nowoczesna wersja (nazywana również odwrotnym trybem automatycznej różniczkowania) została po raz pierwszy opublikowana w 1970 roku przez fińskiego studenta magisterskiego Seppo Linnainmaa. Prekursor BP został opublikowany przez Henry'ego J. Kelleya w 1960 roku. Pierwsza aplikacja BP specyficzna dla NN została opisana przez Paula Werbosa w 1982 roku (ale nie w jego pracy magisterskiej z 1974 roku, jak czasami się twierdzi).
Niektórzy pytają: "Czy propagacja wsteczna to tylko reguła łańcuchowa Leibniza (1676)?" Nie, to efektywny sposób stosowania reguły łańcuchowej do dużych sieci z różniczkowalnymi węzłami. (Istnieje również wiele nieefektywnych sposobów robienia tego.) Nie została opublikowana aż do 1970 roku.
Zobacz stronę przeglądową propagacji wstecznej z dodatkowymi szczegółami:
Zobacz także "Zanotowaną Historię Nowoczesnej AI i Głębokiego Uczenia" (2022):

34,51K
1 dekada temu: Inżynier Prompt w Uczeniu Wzmocnionym w Rozdziale 5.3 „Uczenie się myśleć …” [2]. Adaptacyjny łańcuch myślenia! Sieć RL uczy się zapytywać inną sieć o abstrakcyjne rozumowanie i podejmowanie decyzji. Wykraczając poza Model Świata z lat 90. XX wieku do planowania na poziomie milisekund [1].
[2] J. Schmidhuber (JS, 2015). „O uczeniu się myśleć: Algorytmiczna teoria informacji dla nowych kombinacji kontrolerów RL i rekurencyjnych modeli świata neuronowego.” ArXiv 1210.0118
[1] JS (1990). „Uczynienie świata różniczkowalnym: O wykorzystaniu w pełni rekurencyjnych, samonadzorowanych sieci neuronowych do dynamicznego uczenia wzmocnionego i planowania w niestacjonarnych środowiskach.” TR FKI-126-90, TUM. (Ten raport wprowadził również sztuczną ciekawość i wewnętrzną motywację poprzez generatywne sieci przeciwników.)

23,94K
10 lat temu, w maju 2015 roku, opublikowaliśmy pierwsze działające bardzo głębokie sieci neuronowe typu feedforward (FNN) z setkami warstw (wcześniejsze FNN miały maksymalnie kilka tuzinów warstw). Aby przezwyciężyć problem znikającego gradientu, nasze sieci Highway używały połączeń resztkowych, które po raz pierwszy wprowadzono w 1991 roku przez @HochreiterSepp, aby osiągnąć stały przepływ błędu w rekurencyjnych sieciach neuronowych (RNN), kontrolowanych przez bramki mnożnikowe podobne do bramek zapominania (Gers i in., 1999) w naszej bardzo głębokiej LSTM RNN. Sieci Highway stały się możliwe dzięki pracy moich byłych doktorantów @rupspace i Klausa Greffa. Ustawienie bramek sieci Highway na 1.0 skutecznie daje nam ResNet opublikowany 7 miesięcy później.
Głębokie uczenie polega na głębokości sieci neuronowych. LSTM wprowadziły zasadniczo nieograniczoną głębokość do rekurencyjnych sieci neuronowych; sieci Highway wprowadziły ją do sieci feedforward.
20,76K
1991: pierwsza destylacja sieci neuronowej [1-3]. Wtedy nazwałem to "zapadaniem się", a nie "destylowaniem".
Referencje
[1] J. Schmidhuber (1991). Chunkery sekwencji neuronowych. Raport techniczny FKI-148-91, Uniwersytet Techniczny w Monachium. Sekcje 3.2.2. i 4 dotyczą "zapadania się" lub "destylowania" lub "kompresowania" wiedzy sieci neuronowej do innej sieci neuronowej.
[2] JS (1992). Uczenie się złożonych, rozszerzonych sekwencji przy użyciu zasady kompresji historii. Neural Computation, 4(2):234-242, 1992. Na podstawie [1].
[3] JS (Blog AI, 2021, zaktualizowane 2025). 1991: Pierwsze bardzo głębokie uczenie się z niesuperwizyjnym wstępnym uczeniem.

16,24K
Wszyscy mówią o rekurencyjnym samodoskonaleniu i maszynach Gödla teraz i o tym, jak to doprowadzi do AGI. Cóż za zmiana w porównaniu z sytuacją sprzed 15 lat! Mieliśmy AGI'2010 w Lugano i przewodniczyliśmy AGI'2011 w Google. Podstawą konferencji AGI była matematycznie optymalna uniwersalna sztuczna inteligencja: maszyna Gödla z 2003 r. (i AIXI @mhutter42 - zobacz jego książkę UAI z 2005 r. i jej ostatnią aktualizację z 2024 r. (Jestem dumny, że praca Marcusa Huttera nad AIXI została sfinansowana z mojego szwajcarskiego grantu SNF w 2000 r., kiedy był postdocem w IDSIA.

57,23K
AGI? Pewnego dnia, ale jeszcze nie teraz. Jedyną sztuczną inteligencją, która działa teraz dobrze, jest ta za ekranem [12-17]. Ale przejście testu Turinga [9] za ekranem jest łatwe w porównaniu z prawdziwą sztuczną inteligencją dla prawdziwych robotów w prawdziwym świecie. Żaden obecny robot sterowany sztuczną inteligencją nie może uzyskać certyfikatu hydraulika [13-17]. W związku z tym test Turinga nie jest dobrą miarą inteligencji (podobnie jak IQ). A AGI bez opanowania świata fizycznego nie jest AGI. Dlatego w 2004 r. stworzyłem TUM CogBotLab do nauki robotów [5], w 2014 r. współtworzyłem firmę zajmującą się sztuczną inteligencją w świecie fizycznym [6], a zespoły w TUM, IDSIA, a teraz KAUST pracowały nad robotami dla dzieci [4,10-11,18]. Takie miękkie roboty nie tylko niewolniczo naśladują ludzi i nie działają po prostu pobierając z sieci, jak LLM / VLM. Nie. Zamiast tego wykorzystują zasady sztucznej ciekawości do ulepszania swoich neuronowych modeli świata (dwa terminy, których użyłem w 1990 roku [1-4]). Roboty te działają z wieloma czujnikami, ale tylko ze słabymi siłownikami, tak że nie mogą łatwo zaszkodzić sobie [18], gdy zbierają użyteczne dane, opracowując i przeprowadzając własne, wymyślone przez siebie eksperymenty.
Co ciekawe, od lat siedemdziesiątych XX wieku wielu naśmiewało się z mojego starego celu, jakim było zbudowanie samodoskonalącego się AGI mądrzejszego ode mnie, a następnie przejście na emeryturę. Ostatnio jednak wielu w końcu zaczęło traktować to poważnie, a teraz niektórzy z nich nagle stają się ZBYT optymistyczni. Ci ludzie są często w błogiej nieświadomości pozostałych wyzwań, które musimy rozwiązać, aby osiągnąć prawdziwą sztuczną inteligencję. Mój wykład TED z 2024 roku [15] podsumowuje niektóre z nich.
REFERENCJE (łatwe do znalezienia w sieci):
[1] J. Schmidhuber. Różnicowanie świata: O wykorzystaniu w pełni rekurencyjnych, samonadzorowanych sieci neuronowych (NN) do dynamicznego uczenia się i planowania przez wzmacnianie w środowiskach niestacjonarnych. TR FKI-126-90, TUM, luty 1990, poprawione listopad 1990. W artykule tym przedstawiono również sztuczną ciekawość i wewnętrzną motywację poprzez generatywne sieci przeciwstawne, w których generator NN walczy z predyktorem NN w grze minimax.
[2] J. S. Możliwość implementacji ciekawości i nudy w modelowych kontrolerach neuronowych. W: J. A. Meyer i S. W. Wilson, redaktorzy, Proc. of the International Conference on Simulation of Adaptive Behavior: From Animals to Animats, strony 222-227. MIT Press/Bradford Books, 1991. Na podstawie [1].
[3] Blog J.S. AI (2020). 1990: Planowanie i uczenie się ze wzmocnieniem za pomocą rekurencyjnych modeli świata i sztucznej ciekawości. Podsumowanie aspektów [1][2] i wielu późniejszych prac, w tym [7][8].
[4] J.S. AI Blog (2021): Sztuczna ciekawość i kreatywność od 1990 roku. Podsumowanie aspektów [1][2] i wielu późniejszych prac, w tym [7][8].
[5] J.S. TU, Munich CogBotLab dla uczących się robotów (2004-2009)
[6] NNAISENSE, założony w 2014 r., dla sztucznej inteligencji w świecie fizycznym
[7] J.S. (2015). O uczeniu się myślenia: algorytmiczna teoria informacji dla nowatorskich kombinacji kontrolerów uczenia się przez wzmacnianie (RL) i rekurencyjnych modeli świata neuronowego. arXiv 1210.0118. Sekcja 5.3 opisuje inżyniera podpowiedzi RL, który uczy się wysyłać zapytania do swojego modelu w celu abstrakcyjnego rozumowania, planowania i podejmowania decyzji. Dzisiaj nazywa się to "łańcuchem myśli".
[8] J.S. (2018). Jedna wielka sieć na wszystko. arXiv 1802.08864. Zobacz także US11853886B2 patentowy i mój tweet DeepSeek: DeepSeek wykorzystuje elementy inżyniera podpowiedzi uczenia się przez wzmacnianie z 2015 r. [7] i jego udoskonalenia z 2018 r. [8], które zwijają maszynę RL i model świata [7] w jedną sieć. Wykorzystuje to moją procedurę destylacji sieci neuronowych z 1991 roku: wydestylowany system łańcucha myślowego.
[9] J.S. Turing wyprzedany. Nie jest to jednak wina Turinga. AI Blog (2021, był #1 w Hacker News)
[10] J.S. Intelligente Roboter werden vom Leben fasziniert sein. (Inteligentne roboty będą zafascynowane życiem.) F.A.Z., 2015
[11] J.S. w Falling Walls: The Past, Present and Future of Artificial Intelligence. Scientific American, Obserwacje, 2017.
[12] J.S. KI ist eine Riesenchance für Deutschland. (Sztuczna inteligencja to ogromna szansa dla Niemiec.) F.A.Z., 2018
[13] H. Jones. J.S. mówi, że dzieło jego życia nie doprowadzi do dystopii. Magazyn Forbes, 2023.
[14] Wywiad z J.S. Jazzyear, Szanghaj, 2024.
[15] J.S. TED talk na TED AI Vienna (2024): Dlaczego rok 2042 będzie wielkim rokiem dla sztucznej inteligencji. Zobacz załączony klip wideo.
[16] J.S. Baut den KI-gesteuerten Allzweckroboter! (Zbuduj uniwersalnego robota sterowanego przez sztuczną inteligencję!) F.A.Z., 2024
[17] J.S. 1995-2025: Upadek Niemiec i Japonii kontra USA i Chiny. Czy roboty uniwersalne mogą napędzać powrót? Blog AI, styczeń 2025 r., na podstawie [16].
[18] M. Alhakami, D. R. Ashley, J. Dunham, Y. Dai, F. Faccio, E. Feron, J. Schmidhuber. W kierunku niezwykle wytrzymałego robota dziecięcego z bogatymi możliwościami interakcji dla zaawansowanych algorytmów uczenia maszynowego. Preprint arxiv 2404.08093, 2024.
67,27K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi