Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cine a inventat rețelele neuronale convoluționale (CNN)?
1969: Fukushima a avut ReLU-uri relevante pentru CNN [2].
1979: Fukushima a avut arhitectura de bază a CNN cu straturi de convoluție și straturi de subeșantionare [1]. Calculul a fost de 100 de ori mai costisitor decât în 1989 și de un miliard de ori mai costisitor decât astăzi.
1987: Waibel a aplicat retropropagarea lui Linnainmaa din 1970 [3] la TDNN-urile de împărțire a greutății cu circumvoluții unidimensionale [4].
1988: Wei Zhang et al. au aplicat CNN-urile bidimensionale "moderne" antrenate de backprop la recunoașterea caracterelor [5].
Toate cele de mai sus au fost publicate în Japonia între 1979 și 1988.
1989: LeCun et al. au aplicat din nou CNN-urile la recunoașterea caracterelor (coduri poștale) [6,10].
1990-93: Reducerea eșantionării de la Fukushima bazată pe media spațială [1] a fost înlocuită cu max-pooling pentru TDNN-uri 1-D (Yamaguchi et al.) [7] și CNN-uri 2-D (Weng et al.) [8].
2011: Mult mai târziu, echipa mea cu Dan Ciresan a făcut ca CNN-urile să fie foarte rapide pe GPU-urile NVIDIA. În 2011, DanNet a obținut primul rezultat de recunoaștere a modelelor supraumane [9]. Pentru o vreme, s-a bucurat de un monopol: din mai 2011 până în septembrie 2012, DanNet a câștigat toate provocările de recunoaștere a imaginii la care a participat, 4 dintre ele la rând. Desigur, totuși, a fost vorba în mare parte despre inginerie și extinderea cunoștințelor de bază din mileniul precedent, profitând de hardware mult mai rapid.
Unii "experți în inteligență artificială" susțin că "a face CNN-urile să funcționeze" (de exemplu, [5,6,9]) a fost la fel de important ca și inventarea lor. Dar "a le face să funcționeze" depindea în mare măsură de faptul dacă laboratorul tău era suficient de bogat pentru a cumpăra cele mai recente computere necesare pentru a extinde munca originală. Este la fel ca astăzi. Cercetare de bază vs inginerie/dezvoltare - R vs D în cercetare și dezvoltare.
REFERINŢE
[1] K. Fukushima (1979). Model de rețea neuronală pentru un mecanism de recunoaștere a modelelor neafectat de schimbarea poziției - Neocognitron. Trans. IECE, vol. J62-A, nr. 10, pp. 658-665, 1979.
[2] K. Fukushima (1969). Extragerea caracteristicilor vizuale printr-o rețea multistratificată de elemente de prag analogice. Tranzacții IEEE privind știința sistemelor și cibernetică. 5 (4): 322-333. Această lucrare a introdus unități liniare rectificate (ReLU), acum utilizate în multe CNN-uri.
[3] S. Linnainmaa (1970). Teză de masterat, Univ. Helsinki, 1970. Prima publicație despre retropropagarea "modernă", cunoscută și sub numele de modul invers de diferențiere automată. (Vezi binecunoscuta prezentare generală a lui Schmidhuber: "Cine a inventat retropropagarea?")
[4] A. Waibel. Recunoașterea fonemelor folosind rețele neuronale cu întârziere. Reuniunea IEICE, Tokyo, Japonia, 1987. Retropropagare pentru un TDNN de împărțire a greutății cu circumvoluții 1-dimensionale.
[5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Rețea neuronală de recunoaștere a modelelor invariante și arhitectura sa optică. Proc. Conferința anuală a Societății Japoneze de Fizică Aplicată, 1988. Primul CNN bidimensional antrenat de retropropagare, cu aplicații pentru recunoașterea caracterelor în limba engleză.
[6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Retropropagare aplicată la recunoașterea codurilor poștale scrise de mână, Neural Computation, 1(4):541-551, 1989. A se vedea, de asemenea, secțiunea 3 din [10].
[7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. O rețea neuronală pentru recunoașterea cuvintelor izolate independente de vorbitor. Prima Conferință Internațională privind Procesarea Limbajului Vorbit (ICSLP 90), Kobe, Japonia, noiembrie 1990. Un TDNN convoluțional 1-dimensional folosind Max-Pooling în loc de Spatial Averaging de la Fukushima [1].
[8] Weng, J., Ahuja, N. și Huang, T. S. (1993). Învățarea recunoașterii și segmentării obiectelor 3D din imagini 2D. Proc. 4th Intl. Conf. Computer Vision, Berlin, pp. 121-128. Un CNN bidimensional ale cărui straturi de downsampling folosesc Max-Pooling (care a devenit foarte popular) în loc de Spatial Averaging de la Fukushima [1].
[9] În 2011, CNN-ul rapid și profund bazat pe GPU numit DanNet (7+ straturi) a obținut prima performanță supraomenească într-un concurs de viziune computerizată. Vezi prezentarea generală: "2011: DanNet declanșează o revoluție CNN profundă".
[10] Cum 3 premianți Turing au republicat metode și idei cheie ai căror creatori nu au reușit să-i crediteze. Raport tehnic IDSIA-23-23, Swiss AI Lab IDSIA, 14 decembrie 2023. Vezi și videoclipul de pe YouTube pentru ceremonia de decernare a premiilor Bower 2021: J. Schmidhuber îl laudă pe Kunihiko Fukushima.

346,78K
Limită superioară
Clasament
Favorite