Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jürgen Schmidhuber
Principes inventifs du méta-apprentissage (1987), des GAN (1990), des Transformers (1991), du très deep learning (1991), etc. Notre IA est utilisée plusieurs milliards de fois chaque jour.
Qui a inventé les réseaux de neurones convolutionnels (CNN) ?
1969 : Fukushima avait des ReLUs pertinents pour les CNN [2].
1979 : Fukushima avait l'architecture de base des CNN avec des couches de convolution et des couches de sous-échantillonnage [1]. Le coût de calcul était 100 fois plus élevé qu'en 1989, et un milliard de fois plus élevé qu'aujourd'hui.
1987 : Waibel a appliqué la rétropropagation de Linnainmaa de 1970 [3] aux TDNN à partage de poids avec des convolutions 1-dimensionnelles [4].
1988 : Wei Zhang et al. ont appliqué des CNN 2-dimensionnels entraînés par rétropropagation "modernes" à la reconnaissance de caractères [5].
Tout ce qui précède a été publié au Japon entre 1979 et 1988.
1989 : LeCun et al. ont de nouveau appliqué les CNN à la reconnaissance de caractères (codes postaux) [6,10].
1990-93 : Le sous-échantillonnage de Fukushima basé sur l'averaging spatial [1] a été remplacé par le max-pooling pour les TDNN 1-D (Yamaguchi et al.) [7] et les CNN 2-D (Weng et al.) [8].
2011 : Beaucoup plus tard, mon équipe avec Dan Ciresan a rendu les CNN avec max-pooling vraiment rapides sur les GPU NVIDIA. En 2011, DanNet a atteint le premier résultat de reconnaissance de motifs surhumain [9]. Pendant un certain temps, il a bénéficié d'un monopole : de mai 2011 à septembre 2012, DanNet a remporté tous les défis de reconnaissance d'images auxquels il a participé, 4 d'entre eux consécutivement. Il est vrai, cependant, que cela concernait principalement l'ingénierie et l'augmentation des idées de base du millénaire précédent, profitant d'un matériel beaucoup plus rapide.
Certains "experts en IA" affirment que "faire fonctionner les CNN" (par exemple, [5,6,9]) était aussi important que de les inventer. Mais "les faire fonctionner" dépendait en grande partie de la richesse de votre laboratoire pour acheter les derniers ordinateurs nécessaires pour augmenter le travail original. C'est la même chose qu'aujourd'hui. Recherche fondamentale contre ingénierie/développement - la R contre le D dans la R&D.
RÉFÉRENCES
[1] K. Fukushima (1979). Modèle de réseau de neurones pour un mécanisme de reconnaissance de motifs non affecté par un déplacement de position — Neocognitron. Trans. IECE, vol. J62-A, no. 10, pp. 658-665, 1979.
[2] K. Fukushima (1969). Extraction de caractéristiques visuelles par un réseau multicouche d'éléments seuils analogiques. IEEE Transactions on Systems Science and Cybernetics. 5 (4) : 322-333. Ce travail a introduit les unités linéaires rectifiées (ReLUs), maintenant utilisées dans de nombreux CNN.
[3] S. Linnainmaa (1970). Mémoire de maîtrise, Univ. Helsinki, 1970. La première publication sur la rétropropagation "moderne", également connue sous le nom de mode inverse de la différentiation automatique. (Voir l'aperçu bien connu de la rétropropagation de Schmidhuber : "Qui a inventé la rétropropagation ?")
[4] A. Waibel. Reconnaissance de phonèmes utilisant des réseaux de neurones à retard. Réunion de l'IEICE, Tokyo, Japon, 1987. Rétropropagation pour un TDNN à partage de poids avec des convolutions 1-dimensionnelles.
[5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Réseau de neurones de reconnaissance de motifs invariant au déplacement et son architecture optique. Proc. Conférence annuelle de la Japan Society of Applied Physics, 1988. Premier CNN 2-dimensionnel entraîné par rétropropagation, avec des applications à la reconnaissance de caractères anglais.
[6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel : Rétropropagation appliquée à la reconnaissance de codes postaux manuscrits, Neural Computation, 1(4) :541-551, 1989. Voir aussi Sec. 3 de [10].
[7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Un réseau de neurones pour la reconnaissance de mots isolés indépendamment du locuteur. Première conférence internationale sur le traitement du langage parlé (ICSLP 90), Kobe, Japon, nov. 1990. Un TDNN 1-dimensionnel utilisant le Max-Pooling au lieu de l'averaging spatial de Fukushima [1].
[8] Weng, J., Ahuja, N., et Huang, T. S. (1993). Apprentissage de la reconnaissance et de la segmentation d'objets 3-D à partir d'images 2-D. Proc. 4e Conf. Intl. Vision par ordinateur, Berlin, pp. 121-128. Un CNN 2-dimensionnel dont les couches de sous-échantillonnage utilisent le Max-Pooling (qui est devenu très populaire) au lieu de l'averaging spatial de Fukushima [1].
[9] En 2011, le CNN rapide et profond basé sur GPU appelé DanNet (7+ couches) a atteint la première performance surhumaine dans un concours de vision par ordinateur. Voir l'aperçu : "2011 : DanNet déclenche la révolution des CNN profonds."
[10] Comment 3 lauréats du prix Turing ont republié des méthodes et des idées clés dont les créateurs n'ont pas été crédités. Rapport technique IDSIA-23-23, Swiss AI Lab IDSIA, 14 déc. 2023. Voir aussi la vidéo YouTube pour la cérémonie de remise du prix Bower 2021 : J. Schmidhuber loue Kunihiko Fukushima.

346,78K
Qui a inventé la rétropropagation (BP) ? Sa version moderne (également appelée le mode inverse de la différentiation automatique) a été publiée pour la première fois en 1970 par l'étudiant de maîtrise finlandais Seppo Linnainmaa. Un précurseur de la BP a été publié par Henry J. Kelley en 1960. La première application spécifique aux réseaux de neurones de la BP a été décrite par Paul Werbos en 1982 (mais pas encore dans sa thèse de 1974, comme on le prétend parfois).
Certains demandent : "La rétropropagation n'est-elle pas simplement la règle de chaîne de Leibniz (1676) ?" Non, c'est la manière efficace d'appliquer la règle de chaîne à de grands réseaux avec des nœuds différentiables. (Il existe également de nombreuses manières inefficaces de le faire.) Elle n'a pas été publiée avant 1970.
Voir la page web d'aperçu de la rétropropagation avec plus de détails :
Voir aussi "Histoire annotée de l'IA moderne et de l'apprentissage profond" (2022) :

34,51K
IA physique il y a 10 ans : un robot bébé invente ses propres expériences pour améliorer son modèle de monde neural
Kompella, Stollenga, Luciw, Schmidhuber. Acquisition continue de compétences motivée par la curiosité à partir d'entrées vidéo de haute dimension pour des robots humanoïdes. Intelligence Artificielle, 2015

10,74K
Il y a 1 décennie : Ingénieur en prompts d'apprentissage par renforcement dans la section 5.3 de « Learning to Think … » [2]. Chaîne de pensée adaptative ! Un réseau d'apprentissage par renforcement apprend à interroger un autre réseau pour le raisonnement abstrait et la prise de décision. Allant au-delà du modèle mondial de 1990 pour une planification milliseconde par milliseconde [1].
[2] J. Schmidhuber (JS, 2015). « On Learning to Think: Algorithmic Information Theory for Novel Combinations of RL Controllers and Recurrent Neural World Models. » ArXiv 1210.0118
[1] JS (1990). “Making the world differentiable: On using fully recurrent self-supervised neural networks for dynamic reinforcement learning and planning in non-stationary environments.” TR FKI-126-90, TUM. (Ce rapport a également introduit la curiosité artificielle et la motivation intrinsèque à travers des réseaux antagonistes génératifs.)

23,94K
Il y a 10 ans, en mai 2015, nous avons publié les premiers réseaux de neurones à propagation avant (FNN) très profonds basés sur des gradients, avec des centaines de couches (les FNN précédents avaient un maximum de quelques dizaines de couches). Pour surmonter le problème du gradient qui disparaît, nos réseaux autoroutiers ont utilisé les connexions résiduelles introduites pour la première fois en 1991 par @HochreiterSepp pour obtenir un flux d'erreur constant dans les réseaux de neurones récurrents (RNN), contrôlé par des portes multiplicatives similaires aux portes d'oubli (Gers et al., 1999) de notre RNN LSTM très profond. Les réseaux autoroutiers ont été rendus possibles grâce au travail de mes anciens doctorants @rupspace et Klaus Greff. Régler les portes du réseau autoroutier à 1,0 nous donne effectivement le ResNet publié 7 mois plus tard.
L'apprentissage profond concerne essentiellement la profondeur des réseaux de neurones. Les LSTM ont apporté une profondeur essentiellement illimitée aux RNN ; les réseaux autoroutiers l'ont apportée aux FNN.
20,77K
1991 : première distillation de réseau de neurones [1-3]. Je l'appelais "effondrement" à l'époque, pas "distillation".
Références
[1] J. Schmidhuber (1991). Chunkers de séquence neuronale. Rapport technique FKI-148-91, Université technique de Munich. Sec. 3.2.2. & Sec. 4 traitent de "l'effondrement" ou "de la distillation" ou "de la compression" des connaissances d'un réseau de neurones dans un autre réseau de neurones.
[2] JS (1992). Apprentissage de séquences complexes et étendues en utilisant le principe de compression de l'histoire. Neural Computation, 4(2) : 234-242, 1992. Basé sur [1].
[3] JS (AI Blog, 2021, mis à jour en 2025). 1991 : Premier apprentissage très profond avec pré-entraînement non supervisé. Première distillation de réseau de neurones.

16,25K
Tout le monde parle de l’auto-amélioration récursive et des machines de Gödel maintenant et de la façon dont cela conduira à l’AGI. Quel changement par rapport à il y a 15 ans ! Nous avons organisé l’AGI'2010 à Lugano et présidé l’AGI'2011 chez Google. L’épine dorsale des conférences AGI était l’IA universelle mathématiquement optimale : la machine Gödel de 2003 ( et l’AIXI de @mhutter42 - voir son livre UAI de 2005 et sa récente mise à jour de 2024 ( Je suis fier que le travail AIXI de Marcus Hutter ait été financé par ma bourse suisse SNF 2000 lorsqu’il était postdoc à l’IDSIA.

57,23K
L’IAG ? Un jour, mais pas encore. La seule IA qui fonctionne bien à l’heure actuelle est celle derrière l’écran [12-17]. Mais réussir le test de Turing [9] derrière un écran est facile comparé à l’IA réelle pour de vrais robots dans le monde réel. Aucun robot actuel piloté par l’IA ne pourrait être certifié en tant que plombier [13-17]. Par conséquent, le test de Turing n’est pas une bonne mesure de l’intelligence (et le QI non plus). Et l’IAG sans maîtrise du monde physique n’est pas une AGI. C’est pourquoi j’ai créé le TUM CogBotLab pour les robots d’apprentissage en 2004 [5], co-fondé une entreprise pour l’IA dans le monde physique en 2014 [6], et j’ai fait travailler des équipes chez TUM, IDSIA, et maintenant KAUST sur les bébés robots [4,10-11,18]. De tels robots mous ne se contentent pas d’imiter servilement les humains et ils ne fonctionnent pas simplement en téléchargeant le Web comme les LLM / VLM. Non. Au lieu de cela, ils exploitent les principes de la curiosité artificielle pour améliorer leurs modèles de monde neuronal (deux termes que j’ai utilisés en 1990 [1-4]). Ces robots fonctionnent avec de nombreux capteurs, mais seulement des actionneurs faibles, de sorte qu’ils ne peuvent pas facilement se nuire [18] lorsqu’ils collectent des données utiles en concevant et en exécutant leurs propres expériences qu’ils ont eux-mêmes inventées.
Remarquablement, depuis les années 1970, beaucoup se sont moqués de mon ancien objectif de construire une AGI qui s’améliore elle-même, plus intelligente que moi, puis de prendre ma retraite. Récemment, cependant, beaucoup ont finalement commencé à prendre cela au sérieux, et maintenant certains d’entre eux sont soudainement TROP optimistes. Ces personnes sont souvent parfaitement inconscientes des défis qu’il nous reste à résoudre pour parvenir à une véritable IA. Ma conférence TED de 2024 [15] résume une partie de cela.
RÉFÉRENCES (faciles à trouver sur le web) :
[1] J. Schmidhuber. Rendre le monde différenciable : sur l’utilisation de réseaux neuronaux auto-supervisés (NN) entièrement récurrents pour l’apprentissage par renforcement dynamique et la planification dans des environnements non stationnaires. TR FKI-126-90, TUM, février 1990, révisé en novembre 1990. Cet article a également introduit la curiosité artificielle et la motivation intrinsèque par le biais de réseaux antagonistes génératifs où un générateur NN combat un prédicteur NN dans un jeu minimax.
[2] J. S. Une possibilité d’implémenter la curiosité et l’ennui dans les contrôleurs neuronaux de construction de modèles. Dans J. A. Meyer et S. W. Wilson, éditeurs, Proc. de la Conférence internationale sur la simulation du comportement adaptatif : des animaux aux animats, pages 222-227. MIT Press/Bradford Books, 1991. Basé sur [1].
[3] Blog de J.S. AI (2020). 1990 : Planification et apprentissage par renforcement avec des modèles de monde récurrents et une curiosité artificielle. Résumant des aspects de [1][2] et de nombreux articles ultérieurs, y compris [7][8].
[4] J.S. AI Blog (2021) : Curiosité artificielle et créativité depuis 1990. Résumant des aspects de [1][2] et de nombreux articles ultérieurs, y compris [7][8].
[5] J.S. TU Munich CogBotLab pour les robots d’apprentissage (2004-2009)
[6] NNAISENSE, fondée en 2014, pour l’IA dans le monde physique
[7] J.S. (2015). Sur l’apprentissage de la pensée : théorie de l’information algorithmique pour de nouvelles combinaisons de contrôleurs d’apprentissage par renforcement (RL) et de modèles de monde neuronal récurrent. arXiv 1210.0118. La section 5.3 décrit un ingénieur d’invite RL qui apprend à interroger son modèle pour un raisonnement abstrait, une planification et une prise de décision. Aujourd’hui, c’est ce qu’on appelle la « chaîne de pensée ».
[8] J.S. (2018). Un grand filet pour tout. arXiv 1802.08864. Voir aussi le brevet US11853886B2 et mon tweet DeepSeek : DeepSeek utilise des éléments de l’ingénieur d’incitation à l’apprentissage par renforcement de 2015 [7] et de son raffinement de 2018 [8] qui réduit la machine RL et le modèle du monde de [7] en un seul filet. Cela utilise ma procédure de distillation par réseau neuronal de 1991 : une chaîne distillée de système de pensée.
[9] J.S. Turing a survendu. Ce n’est pas la faute de Turing, cependant. AI Blog (2021, était #1 sur Hacker News)
[10] J.S. Intelligente Roboter werden vom Leben fasziniert sein. (Les robots intelligents seront fascinés par la vie.) F.A.Z., 2015
[11] J.S. à Falling Walls : le passé, le présent et l’avenir de l’intelligence artificielle. Scientific American, Observations, 2017.
[12] J.S. KI ist eine Riesenchance für Deutschland. (L’IA est une énorme chance pour l’Allemagne.) F.A.Z., 2018
[13] H. Jones. J.S. dit que le travail de sa vie ne mènera pas à la dystopie. Magazine Forbes, 2023.
[14] Entretien avec J.S. Jazzyear, Shanghai, 2024.
[15] Conférence de J.S. TED à TED AI Vienne (2024) : Pourquoi 2042 sera une grande année pour l’IA. Voir le clip vidéo ci-joint.
[16] J.S. Baut den KI-gesteuerten Allzweckroboter ! (Construisez le robot polyvalent contrôlé par l’IA !) F.A.Z., 2024
[17] J.S. 1995-2025 : Le déclin de l’Allemagne et du Japon contre les États-Unis et la Chine. Les robots polyvalents peuvent-ils alimenter un retour en force ? AI Blog, janvier 2025, basé sur [16].
[18] M. Alhakami, D. R. Ashley, J. Dunham, Y. Dai, F. Faccio, E. Feron, J. Schmidhuber. Vers un bébé robot extrêmement robuste avec une riche capacité d’interaction pour des algorithmes d’apprentissage automatique avancés. Prépublication arxiv 2404.08093, 2024.
67,27K
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables