Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Jürgen Schmidhuber

Wynalezione zasady meta-uczenia (1987), GAN (1990), transformatorów (1991), bardzo głębokiego uczenia (1991), itp. Nasza sztuczna inteligencja jest używana wiele miliardów razy każdego dnia.

Kto wynalazł konwolucyjne sieci neuronowe (CNN)? 1969: Fukushima miał ReLU związane z CNN [2]. 1979: Fukushima miał podstawową architekturę CNN z warstwami konwolucyjnymi i warstwami redukcji wymiarów [1]. Obliczenia były 100 razy droższe niż w 1989 roku, a miliard razy droższe niż dzisiaj. 1987: Waibel zastosował wagi dzielone w TDNN z jednowymiarowymi konwolucjami, korzystając z wstecznej propagacji Linnainmaa z 1970 roku [3] [4]. 1988: Wei Zhang i in. zastosowali "nowoczesne" CNN trenowane wsteczną propagacją do rozpoznawania znaków [5]. Wszystko powyższe zostało opublikowane w Japonii w latach 1979-1988. 1989: LeCun i in. ponownie zastosowali CNN do rozpoznawania znaków (kodów pocztowych) [6,10]. 1990-93: Redukcja wymiarów Fukushimy oparta na uśrednianiu przestrzennym [1] została zastąpiona przez max-pooling dla 1-D TDNN (Yamaguchi i in.) [7] oraz 2-D CNN (Weng i in.) [8]. 2011: Dużo później, mój zespół z Danem Ciresanem sprawił, że max-pooling CNN stały się naprawdę szybkie na GPU NVIDIA. W 2011 roku DanNet osiągnął pierwszy superludzki wynik w rozpoznawaniu wzorców [9]. Przez pewien czas cieszył się monopolem: od maja 2011 do września 2012 DanNet wygrał każde wyzwanie w rozpoznawaniu obrazów, w tym 4 z rzędu. Należy jednak przyznać, że w dużej mierze chodziło o inżynierię i skalowanie podstawowych spostrzeżeń z poprzedniego tysiąclecia, korzystając z dużo szybszego sprzętu. Niektórzy "eksperci AI" twierdzą, że "sprawienie, by CNN działały" (np. [5,6,9]) było tak samo ważne, jak ich wynalezienie. Ale "sprawienie, by działały" w dużej mierze zależało od tego, czy twoje laboratorium było wystarczająco bogate, aby kupić najnowsze komputery potrzebne do skalowania oryginalnej pracy. To samo dotyczy dzisiaj. Podstawowe badania vs inżynieria/rozwój - R vs D w R&D. REFERENCJE [1] K. Fukushima (1979). Model sieci neuronowej dla mechanizmu rozpoznawania wzorców, niepodlegającego przesunięciu pozycji — Neocognitron. Trans. IECE, vol. J62-A, nr 10, s. 658-665, 1979. [2] K. Fukushima (1969). Ekstrakcja cech wizualnych przez sieć z wieloma warstwami elementów progowych analogowych. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Ta praca wprowadziła prostokątne jednostki liniowe (ReLU), obecnie używane w wielu CNN. [3] S. Linnainmaa (1970). Praca magisterska, Uniwersytet w Helsinkach, 1970. Pierwsza publikacja na temat "nowoczesnej" wstecznej propagacji, znanej również jako odwrotna metoda automatycznej różnicowania. (Zobacz znany przegląd wstecznej propagacji Schmidhubera: "Kto wynalazł wsteczną propagację?") [4] A. Waibel. Rozpoznawanie fonemów przy użyciu sieci neuronowych z opóźnieniem czasowym. Spotkanie IEICE, Tokio, Japonia, 1987. Wsteczna propagacja dla TDNN z wagami dzielonymi z jednowymiarowymi konwolucjami. [5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Sieć neuronowa do rozpoznawania wzorców niezmiennych na przesunięcie i jej optyczna architektura. Proc. Annual Conference of the Japan Society of Applied Physics, 1988. Pierwsze CNN trenowane wsteczną propagacją w 2 wymiarach, z zastosowaniami do rozpoznawania znaków angielskich. [6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Wsteczna propagacja zastosowana do rozpoznawania odręcznych kodów pocztowych, Neural Computation, 1(4):541-551, 1989. Zobacz także sekcję 3 [10]. [7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Sieć neuronowa do rozpoznawania izolowanych słów niezależnych od mówcy. Pierwsza Międzynarodowa Konferencja na temat Przetwarzania Języka Mówionego (ICSLP 90), Kobe, Japonia, listopad 1990. Jednowymiarowy TDNN z konwolucjami używającymi Max-Poolingu zamiast uśredniania przestrzennego Fukushimy [1]. [8] Weng, J., Ahuja, N., i Huang, T. S. (1993). Uczenie rozpoznawania i segmentacji obiektów 3D z obrazów 2D. Proc. 4th Intl. Conf. Computer Vision, Berlin, s. 121-128. Dwuwymiarowe CNN, których warstwy redukcji wymiarów używają Max-Poolingu (który stał się bardzo popularny) zamiast uśredniania przestrzennego Fukushimy [1]. [9] W 2011 roku szybkie i głębokie CNN oparte na GPU, zwane DanNet (7+ warstw), osiągnęły pierwszy superludzki wynik w konkursie wizji komputerowej. Zobacz przegląd: "2011: DanNet wywołuje rewolucję głębokich CNN." [10] Jak 3 laureatów nagrody Turinga opublikowało kluczowe metody i pomysły, których twórców nie uznali. Raport techniczny IDSIA-23-23, Szwajcarskie Laboratorium AI IDSIA, 14 grudnia 2023. Zobacz także film na YouTube z ceremonii wręczenia nagrody Bower 2021: J. Schmidhuber chwali Kunihiko Fukushimę.

AGI? Pewnego dnia, ale jeszcze nie teraz. Jedyną sztuczną inteligencją, która działa teraz dobrze, jest ta za ekranem [12-17]. Ale przejście testu Turinga [9] za ekranem jest łatwe w porównaniu z prawdziwą sztuczną inteligencją dla prawdziwych robotów w prawdziwym świecie. Żaden obecny robot sterowany sztuczną inteligencją nie może uzyskać certyfikatu hydraulika [13-17]. W związku z tym test Turinga nie jest dobrą miarą inteligencji (podobnie jak IQ). A AGI bez opanowania świata fizycznego nie jest AGI. Dlatego w 2004 r. stworzyłem TUM CogBotLab do nauki robotów [5], w 2014 r. współtworzyłem firmę zajmującą się sztuczną inteligencją w świecie fizycznym [6], a zespoły w TUM, IDSIA, a teraz KAUST pracowały nad robotami dla dzieci [4,10-11,18]. Takie miękkie roboty nie tylko niewolniczo naśladują ludzi i nie działają po prostu pobierając z sieci, jak LLM / VLM. Nie. Zamiast tego wykorzystują zasady sztucznej ciekawości do ulepszania swoich neuronowych modeli świata (dwa terminy, których użyłem w 1990 roku [1-4]). Roboty te działają z wieloma czujnikami, ale tylko ze słabymi siłownikami, tak że nie mogą łatwo zaszkodzić sobie [18], gdy zbierają użyteczne dane, opracowując i przeprowadzając własne, wymyślone przez siebie eksperymenty. Co ciekawe, od lat siedemdziesiątych XX wieku wielu naśmiewało się z mojego starego celu, jakim było zbudowanie samodoskonalącego się AGI mądrzejszego ode mnie, a następnie przejście na emeryturę. Ostatnio jednak wielu w końcu zaczęło traktować to poważnie, a teraz niektórzy z nich nagle stają się ZBYT optymistyczni. Ci ludzie są często w błogiej nieświadomości pozostałych wyzwań, które musimy rozwiązać, aby osiągnąć prawdziwą sztuczną inteligencję. Mój wykład TED z 2024 roku [15] podsumowuje niektóre z nich. REFERENCJE (łatwe do znalezienia w sieci): [1] J. Schmidhuber. Różnicowanie świata: O wykorzystaniu w pełni rekurencyjnych, samonadzorowanych sieci neuronowych (NN) do dynamicznego uczenia się i planowania przez wzmacnianie w środowiskach niestacjonarnych. TR FKI-126-90, TUM, luty 1990, poprawione listopad 1990. W artykule tym przedstawiono również sztuczną ciekawość i wewnętrzną motywację poprzez generatywne sieci przeciwstawne, w których generator NN walczy z predyktorem NN w grze minimax. [2] J. S. Możliwość implementacji ciekawości i nudy w modelowych kontrolerach neuronowych. W: J. A. Meyer i S. W. Wilson, redaktorzy, Proc. of the International Conference on Simulation of Adaptive Behavior: From Animals to Animats, strony 222-227. MIT Press/Bradford Books, 1991. Na podstawie [1]. [3] Blog J.S. AI (2020). 1990: Planowanie i uczenie się ze wzmocnieniem za pomocą rekurencyjnych modeli świata i sztucznej ciekawości. Podsumowanie aspektów [1][2] i wielu późniejszych prac, w tym [7][8]. [4] J.S. AI Blog (2021): Sztuczna ciekawość i kreatywność od 1990 roku. Podsumowanie aspektów [1][2] i wielu późniejszych prac, w tym [7][8]. [5] J.S. TU, Munich CogBotLab dla uczących się robotów (2004-2009) [6] NNAISENSE, założony w 2014 r., dla sztucznej inteligencji w świecie fizycznym [7] J.S. (2015). O uczeniu się myślenia: algorytmiczna teoria informacji dla nowatorskich kombinacji kontrolerów uczenia się przez wzmacnianie (RL) i rekurencyjnych modeli świata neuronowego. arXiv 1210.0118. Sekcja 5.3 opisuje inżyniera podpowiedzi RL, który uczy się wysyłać zapytania do swojego modelu w celu abstrakcyjnego rozumowania, planowania i podejmowania decyzji. Dzisiaj nazywa się to "łańcuchem myśli". [8] J.S. (2018). Jedna wielka sieć na wszystko. arXiv 1802.08864. Zobacz także US11853886B2 patentowy i mój tweet DeepSeek: DeepSeek wykorzystuje elementy inżyniera podpowiedzi uczenia się przez wzmacnianie z 2015 r. [7] i jego udoskonalenia z 2018 r. [8], które zwijają maszynę RL i model świata [7] w jedną sieć. Wykorzystuje to moją procedurę destylacji sieci neuronowych z 1991 roku: wydestylowany system łańcucha myślowego. [9] J.S. Turing wyprzedany. Nie jest to jednak wina Turinga. AI Blog (2021, był #1 w Hacker News) [10] J.S. Intelligente Roboter werden vom Leben fasziniert sein. (Inteligentne roboty będą zafascynowane życiem.) F.A.Z., 2015 [11] J.S. w Falling Walls: The Past, Present and Future of Artificial Intelligence. Scientific American, Obserwacje, 2017. [12] J.S. KI ist eine Riesenchance für Deutschland. (Sztuczna inteligencja to ogromna szansa dla Niemiec.) F.A.Z., 2018 [13] H. Jones. J.S. mówi, że dzieło jego życia nie doprowadzi do dystopii. Magazyn Forbes, 2023. [14] Wywiad z J.S. Jazzyear, Szanghaj, 2024. [15] J.S. TED talk na TED AI Vienna (2024): Dlaczego rok 2042 będzie wielkim rokiem dla sztucznej inteligencji. Zobacz załączony klip wideo. [16] J.S. Baut den KI-gesteuerten Allzweckroboter! (Zbuduj uniwersalnego robota sterowanego przez sztuczną inteligencję!) F.A.Z., 2024 [17] J.S. 1995-2025: Upadek Niemiec i Japonii kontra USA i Chiny. Czy roboty uniwersalne mogą napędzać powrót? Blog AI, styczeń 2025 r., na podstawie [16]. [18] M. Alhakami, D. R. Ashley, J. Dunham, Y. Dai, F. Faccio, E. Feron, J. Schmidhuber. W kierunku niezwykle wytrzymałego robota dziecięcego z bogatymi możliwościami interakcji dla zaawansowanych algorytmów uczenia maszynowego. Preprint arxiv 2404.08093, 2024.

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi