Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jürgen Schmidhuber
Erfundene Prinzipien des Meta-Lernens (1987), GANs (1990), Transformers (1991), sehr tiefes Lernen (1991) usw. Unsere KI wird jeden Tag viele Milliarden Mal genutzt.
Wer hat die konvolutionalen neuronalen Netzwerke (CNNs) erfunden?
1969: Fukushima hatte CNN-relevante ReLUs [2].
1979: Fukushima hatte die grundlegende CNN-Architektur mit Faltungsschichten und Downsampling-Schichten [1]. Die Berechnung war 100 x teurer als 1989 und eine Milliarde x teurer als heute.
1987: Waibel wandte Linnainmaa's Backpropagation von 1970 [3] auf gewichtete TDNNs mit eindimensionalen Faltungen [4] an.
1988: Wei Zhang et al. wandten "moderne" backprop-trainierte zweidimensionale CNNs auf die Zeichenerkennung an [5].
All dies wurde in Japan von 1979 bis 1988 veröffentlicht.
1989: LeCun et al. wandten CNNs erneut auf die Zeichenerkennung (Postleitzahlen) an [6,10].
1990-93: Fukushimas Downsampling basierend auf räumlicher Averaging [1] wurde durch Max-Pooling für 1-D TDNNs (Yamaguchi et al.) [7] und 2-D CNNs (Weng et al.) [8] ersetzt.
2011: Viel später machte mein Team mit Dan Ciresan Max-Pooling-CNNs wirklich schnell auf NVIDIA-GPUs. 2011 erzielte DanNet das erste übermenschliche Mustererkennungsergebnis [9]. Eine Zeit lang genoss es ein Monopol: von Mai 2011 bis September 2012 gewann DanNet jede Bildverkennungschallenge, an der es teilnahm, 4 davon hintereinander. Zugegeben, dies war jedoch hauptsächlich eine Frage der Technik und der Skalierung der grundlegenden Erkenntnisse aus dem vorherigen Jahrtausend, profitierend von viel schnellerer Hardware.
Einige "KI-Experten" behaupten, dass "CNNs zum Laufen zu bringen" (z.B. [5,6,9]) ebenso wichtig war wie ihre Erfindung. Aber "sie zum Laufen zu bringen" hing weitgehend davon ab, ob Ihr Labor reich genug war, um die neuesten Computer zu kaufen, die erforderlich waren, um die ursprüngliche Arbeit zu skalieren. Es ist dasselbe wie heute. Grundlagenforschung vs. Ingenieurwesen/Entwicklung - das R vs. das D in F&E.
REFERENZEN
[1] K. Fukushima (1979). Neuronales Netzwerkmodell für einen Mechanismus der Mustererkennung, der nicht von der Position beeinflusst wird — Neocognitron. Trans. IECE, Bd. J62-A, Nr. 10, S. 658-665, 1979.
[2] K. Fukushima (1969). Visuelle Merkmalsextraktion durch ein mehrschichtiges Netzwerk von analogen Schwellenwert-Elementen. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Diese Arbeit führte die rectified linear units (ReLUs) ein, die jetzt in vielen CNNs verwendet werden.
[3] S. Linnainmaa (1970). Masterarbeit, Univ. Helsinki, 1970. Die erste Veröffentlichung über "moderne" Backpropagation, auch bekannt als der umgekehrte Modus der automatischen Differenzierung. (Siehe Schmidhubers bekannte Übersicht über Backpropagation: "Wer hat Backpropagation erfunden?")
[4] A. Waibel. Phonemerkennung mit zeitverzögerten neuronalen Netzwerken. Treffen der IEICE, Tokio, Japan, 1987. Backpropagation für ein gewichtete TDNN mit eindimensionalen Faltungen.
[5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Shift-invariante Mustererkennung neuronales Netzwerk und seine optische Architektur. Proc. Jahrestagung der Japan Society of Applied Physics, 1988. Erstes backpropagation-trainiertes zweidimensionales CNN, mit Anwendungen zur Erkennung englischer Zeichen.
[6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Backpropagation angewendet auf die Erkennung handgeschriebener Postleitzahlen, Neural Computation, 1(4):541-551, 1989. Siehe auch Abschnitt 3 von [10].
[7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Ein neuronales Netzwerk zur sprecherunabhängigen isolierten Worterkennung. Erste Internationale Konferenz über Sprachverarbeitung (ICSLP 90), Kobe, Japan, Nov 1990. Ein eindimensionales konvolutionales TDNN, das Max-Pooling anstelle von Fukushimas räumlicher Averaging [1] verwendet.
[8] Weng, J., Ahuja, N., und Huang, T. S. (1993). Lernen von Erkennung und Segmentierung von 3-D-Objekten aus 2-D-Bildern. Proc. 4. Intl. Konferenz über Computer Vision, Berlin, S. 121-128. Ein zweidimensionales CNN, dessen Downsampling-Schichten Max-Pooling verwenden (was sehr beliebt geworden ist) anstelle von Fukushimas räumlicher Averaging [1].
[9] 2011 erzielte das schnelle und tiefe GPU-basierte CNN namens DanNet (7+ Schichten) die erste übermenschliche Leistung in einem Computer Vision-Wettbewerb. Siehe Übersicht: "2011: DanNet löst die Revolution der tiefen CNN aus."
[10] Wie 3 Turing-Preisträger wichtige Methoden und Ideen, deren Schöpfer sie nicht anerkannten, neu veröffentlichten. Technischer Bericht IDSIA-23-23, Swiss AI Lab IDSIA, 14. Dez 2023. Siehe auch das YouTube-Video zur Bower Award Ceremony 2021: J. Schmidhuber lobt Kunihiko Fukushima.

346,75K
Wer hat die Rückpropagation (BP) erfunden? Ihre moderne Version (auch als umgekehrter Modus der automatischen Differenzierung bezeichnet) wurde 1970 von dem finnischen Masterstudenten Seppo Linnainmaa veröffentlicht. Ein Vorläufer der BP wurde 1960 von Henry J. Kelley veröffentlicht. Die erste NN-spezifische Anwendung der BP wurde 1982 von Paul Werbos beschrieben (aber nicht in seiner Dissertation von 1974, wie manchmal behauptet wird).
Einige fragen: "Ist die Rückpropagation nicht nur die Kettenregel von Leibniz (1676)?" Nein, es ist die effiziente Art, die Kettenregel auf große Netzwerke mit differenzierbaren Knoten anzuwenden. (Es gibt auch viele ineffiziente Möglichkeiten, dies zu tun.) Sie wurde erst 1970 veröffentlicht.
Siehe die Übersicht über die Rückpropagation-Webseite mit weiteren Details:
Siehe auch die "Annotierte Geschichte der modernen KI und des Deep Learning" (2022):

34,5K
Physische KI vor 10 Jahren: Baby-Roboter erfindet eigene Experimente, um sein neuronales Weltmodell zu verbessern.
Kompella, Stollenga, Luciw, Schmidhuber. Kontinuierliche, neugiergesteuerte Fähigkeitenakquisition aus hochdimensionalen Videoeingaben für humanoide Roboter. Künstliche Intelligenz, 2015

10,73K
Vor 1 Jahrzehnt: Prompt Engineer für Verstärkendes Lernen in Abschnitt 5.3 von «Learning to Think …» [2]. Adaptive Denkkette! Ein RL-Netz lernt, ein anderes Netz für abstraktes Denken und Entscheidungsfindung abzufragen. Über das Weltmodell von 1990 hinaus für Millisekunden-zu-Millisekunden-Planung [1].
[2] J. Schmidhuber (JS, 2015). «On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and Recurrent Neural World Models.» ArXiv 1210.0118
[1] JS (1990). “Making the world differentiable: On using fully recurrent self-supervised neural networks for dynamic reinforcement learning and planning in non-stationary environments.” TR FKI-126-90, TUM. (Dieser Bericht führte auch künstliche Neugier und intrinsische Motivation durch generative gegnerische Netzwerke ein.)

23,93K
Vor 10 Jahren, im Mai 2015, veröffentlichten wir die ersten funktionierenden, sehr tiefen, gradientenbasierten Feedforward-Neuronalen Netzwerke (FNNs) mit Hunderten von Schichten (frühere FNNs hatten maximal einige Dutzend Schichten). Um das Problem des verschwindenden Gradienten zu überwinden, verwendeten unsere Highway-Netzwerke die Residualverbindungen, die 1991 von @HochreiterSepp eingeführt wurden, um einen konstanten Fehlerfluss in rekurrenten NNs (RNNs) zu erreichen, gesteuert durch multiplikative Tore, ähnlich den Vergessenstoren (Gers et al., 1999) unseres sehr tiefen LSTM-RNN. Highway-NNs wurden durch die Arbeit meiner ehemaligen Doktoranden @rupspace und Klaus Greff möglich gemacht. Wenn die Highway-NN-Tore auf 1,0 gesetzt werden, erhalten wir effektiv das ResNet, das 7 Monate später veröffentlicht wurde.
Deep Learning dreht sich alles um die Tiefe der NNs. LSTMs brachten im Wesentlichen unbegrenzte Tiefe zu rekurrenten NNs; Highway Nets brachten sie zu Feedforward-NNs.
20,76K
1991: erste Destillation von neuronalen Netzwerken [1-3]. Ich nannte es damals "collapsing", nicht "distilling".
Referenzen
[1] J. Schmidhuber (1991). Neuronale Sequenzchunker. Tech Report FKI-148-91, Technische Universität München. Abschnitt 3.2.2. & Abschnitt 4 handeln von "collapsing" oder "distilling" oder "compressing" des Wissens eines neuronalen Netzwerks in ein anderes neuronales Netzwerk.
[2] JS (1992). Lernen komplexer, erweiterter Sequenzen unter Verwendung des Prinzips der Geschichtsverdichtung. Neural Computation, 4(2):234-242, 1992. Basierend auf [1].
[3] JS (AI Blog, 2021, aktualisiert 2025). 1991: Erstes sehr tiefes Lernen mit unbeaufsichtigtem Pre-Training. Erste Destillation eines neuronalen Netzwerks.

16,24K
Alle reden jetzt über rekursive Selbstverbesserung und Gödel Machines und wie dies zu AGI führen wird. Was für eine Veränderung im Vergleich zu vor 15 Jahren! Wir hatten die AGI'2010 in Lugano und leiteten die AGI'2011 bei Google. Das Rückgrat der AGI-Konferenzen war die mathematisch optimale universelle KI: die Gödel-Maschine von 2003 (und AIXI von @mhutter42 - siehe sein UAI-Buch von 2005 und das jüngste Update von 2024 ( Ich bin stolz darauf, dass Marcus Hutters AIXI-Arbeit durch mein Stipendium des Schweizer SNF im Jahr 2000 finanziert wurde, als er Postdoc am IDSIA war.

57,22K
AGI? Eines Tages, aber noch nicht. Die einzige KI, die im Moment gut funktioniert, ist die hinter dem Bildschirm [12-17]. Aber das Bestehen des Turing-Tests [9] hinter einem Bildschirm ist im Vergleich zu echter KI für echte Roboter in der realen Welt einfach. Kein aktueller KI-gesteuerter Roboter könnte als Klempner zertifiziert werden [13-17]. Daher ist der Turing-Test kein gutes Maß für Intelligenz (und der IQ auch nicht). Und AGI ohne Beherrschung der physischen Welt ist kein AGI. Deshalb habe ich 2004 das TUM CogBotLab für lernende Roboter gegründet [5], 2014 ein Unternehmen für KI in der physischen Welt mitgegründet [6] und Teams an der TUM, IDSIA und jetzt KAUST an Babyrobotern arbeiten lassen [4,10-11,18]. Solche weichen Roboter imitieren nicht nur sklavisch Menschen und funktionieren nicht, indem sie einfach wie LLMs/VLMs das Internet herunterladen. Nein. Stattdessen nutzen sie die Prinzipien der künstlichen Neugier, um ihre neuronalen Weltmodelle zu verbessern (zwei Begriffe, die ich bereits 1990 verwendet habe [1-4]). Diese Roboter arbeiten mit vielen Sensoren, aber nur mit schwachen Aktuatoren, so dass sie sich nicht so leicht selbst verletzen können [18], wenn sie durch die Konzeption und Durchführung ihrer selbst erfundenen Experimente nützliche Daten sammeln.
Bemerkenswert ist, dass sich seit den 1970er Jahren viele über mein altes Ziel lustig gemacht haben, eine sich selbst verbessernde AGI aufzubauen, die klüger ist als ich selbst, und dann in den Ruhestand zu gehen. In letzter Zeit haben viele jedoch endlich begonnen, dies ernst zu nehmen, und jetzt sind einige von ihnen plötzlich ZU optimistisch. Diese Menschen sind sich oft nicht bewusst, welche Herausforderungen wir noch lösen müssen, um echte KI zu erreichen. Mein TED-Talk 2024 [15] fasst einiges davon zusammen.
REFERENZEN (leicht im Web zu finden):
[1] J. Schmidhuber. Die Welt differenzierbar machen: Über die Verwendung von vollständig rekurrenten, selbstüberwachten neuronalen Netzen (NNs) für dynamisches Verstärkungslernen und Planen in nicht-stationären Umgebungen. TR FKI-126-90, TUM, Feb 1990, überarbeitet Nov 1990. In diesem Artikel wurden auch künstliche Neugier und intrinsische Motivation durch generative gegnerische Netzwerke eingeführt, bei denen ein Generator NN gegen einen Prädiktor NN in einem Minimax-Spiel kämpft.
[2] J. S. Eine Möglichkeit, Neugier und Langeweile in modellbildenden neuronalen Controllern zu implementieren. In J. A. Meyer und S. W. Wilson, Herausgeber, Proc. of the International Conference on Simulation of Adaptive Behavior: From Animals to Etimats, Seiten 222-227. MIT Press/Bradford Books, 1991. Basierend auf [1].
[3] J.S. KI-Blog (2020). 1990: Planung & Reinforcement Learning mit rekurrenten Weltmodellen und künstlicher Neugier. Zusammenfassung von Aspekten von [1][2] und vielen späteren Arbeiten, einschließlich [7][8].
[4] J.S. AI Blog (2021): Künstliche Neugier und Kreativität seit 1990. Zusammenfassung von Aspekten von [1][2] und vielen späteren Arbeiten, einschließlich [7][8].
[5] J.S. TU München CogBotLab für lernende Roboter (2004-2009)
[6] NNAISENSE, gegründet 2014, für KI in der physischen Welt
[7] J.S. (2015). Über das Erlernen des Denkens: Algorithmische Informationstheorie für neuartige Kombinationen von Reinforcement Learning (RL)-Controllern und rekurrenten neuronalen Weltmodellen. arXiv 1210.0118. Abschnitt 5.3 beschreibt einen RL-Prompt-Ingenieur, der lernt, sein Modell für abstraktes Denken sowie Planung und Entscheidungsfindung abzufragen. Heute wird dies als "Gedankenkette" bezeichnet.
[8] J.S. (2018). Ein großes Netz für alles. arXiv 1802.08864. Siehe auch Patent US11853886B2 und meinen DeepSeek-Tweet: DeepSeek verwendet Elemente des Reinforcement Learning Prompt Engineer [7] von 2015 und seiner Verfeinerung von 2018 [8], die die RL-Maschine und das Weltmodell von [7] in einem einzigen Netz zusammenfasst. Dabei wird mein Verfahren zur Destillation neuronaler Netze von 1991 verwendet: ein destilliertes Denkkettensystem.
[9] J.S. Turing überverkauft. Es ist jedoch nicht Turings Schuld. AI Blog (2021, war #1 auf Hacker News)
[10] J.S. Intelligente Roboter werden vom Leben fasziniert sein. (Intelligente Roboter werden vom Leben fasziniert sein.) F.A.Z., 2015
[11] J.S. bei Falling Walls: Die Vergangenheit, Gegenwart und Zukunft der künstlichen Intelligenz. Wissenschaftlicher Amerikaner, Beobachtungen, 2017.
[12] J.S. KI ist eine Riesenchance für Deutschland. (KI ist eine große Chance für Deutschland.) F.A.Z., 2018
[13] H. Jones. J.S. sagt, dass sein Lebenswerk nicht in die Dystopie führen wird. Forbes Magazin, 2023.
[14] Interview mit J.S. Jazzyear, Shanghai, 2024.
[15] J.S. TED Vortrag bei TED AI Vienna (2024): Warum 2042 ein großes Jahr für KI sein wird. Sehen Sie sich den beigefügten Videoclip an.
[16] J.S. Baut den KI-gesteuerten Allzweckroboter! (Baue den KI-gesteuerten Allzweckroboter!) F.A.Z., 2024
[17] J.S. 1995-2025: Der Niedergang Deutschlands und Japans im Vergleich zu den USA und China. Können Allzweckroboter ein Comeback befeuern? AI Blog, Januar 2025, basierend auf [16].
[18] M. Alhakami, D. R. Ashley, J. Dunham, Y. Dai, F. Faccio, E. Feron, J. Schmidhuber. Auf dem Weg zu einem extrem robusten Babyroboter mit reichhaltiger Interaktionsfähigkeit für fortschrittliche Algorithmen des maschinellen Lernens. Vorabdruck arxiv 2404.08093, 2024.
67,26K
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten