Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wie heeft convolutionele neurale netwerken (CNN's) uitgevonden?
1969: Fukushima had CNN-relevante ReLUs [2].
1979: Fukushima had de basisarchitectuur van CNN met convolutielaag en downsamplinglagen [1]. De rekentijd was 100 x duurder dan in 1989, en een miljard x duurder dan vandaag.
1987: Waibel paste Linnainmaa's backpropagation uit 1970 [3] toe op gewicht-delende TDNN's met 1-dimensionale convoluties [4].
1988: Wei Zhang et al. pasten "moderne" backprop-getrainde 2-dimensionale CNN's toe op tekenherkenning [5].
Al het bovenstaande werd gepubliceerd in Japan van 1979-1988.
1989: LeCun et al. pasten CNN's opnieuw toe op tekenherkenning (postcode) [6,10].
1990-93: Fukushima’s downsampling op basis van ruimtelijke averaging [1] werd vervangen door max-pooling voor 1-D TDNN's (Yamaguchi et al.) [7] en 2-D CNN's (Weng et al.) [8].
2011: Veel later maakte mijn team met Dan Ciresan max-pooling CNN's echt snel op NVIDIA GPU's. In 2011 behaalde DanNet de eerste superieure patroonherkenningsresultaten [9]. Een tijdlang genoot het een monopolie: van mei 2011 tot september 2012 won DanNet elke beeldherkenningsuitdaging waaraan het deelnam, 4 keer achter elkaar. Toegegeven, dit had echter vooral te maken met engineering en het opschalen van de basisinzichten uit het vorige millennium, profiterend van veel snellere hardware.
Sommige "AI-experts" beweren dat "het laten werken van CNN's" (bijv. [5,6,9]) net zo belangrijk was als het uitvinden ervan. Maar "het laten werken" hing grotendeels af van of je lab rijk genoeg was om de nieuwste computers te kopen die nodig waren om het oorspronkelijke werk op te schalen. Het is hetzelfde als vandaag. Basisonderzoek versus engineering/ontwikkeling - de R versus de D in R&D.
REFERENTIES
[1] K. Fukushima (1979). Neuraal netwerkmodel voor een mechanisme van patroonherkenning dat niet wordt beïnvloed door verschuiving in positie — Neocognitron. Trans. IECE, vol. J62-A, nr. 10, pp. 658-665, 1979.
[2] K. Fukushima (1969). Visuele functie-extractie door een gelaagd netwerk van analoge drempelelementen. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Dit werk introduceerde rectified linear units (ReLUs), nu gebruikt in veel CNN's.
[3] S. Linnainmaa (1970). Master's Thesis, Univ. Helsinki, 1970. De eerste publicatie over "moderne" backpropagation, ook bekend als de reverse mode van automatische differentiatie. (Zie Schmidhuber's bekende overzicht van backpropagation: "Wie heeft Backpropagation uitgevonden?")
[4] A. Waibel. Fonetische herkenning met behulp van tijdvertraging neurale netwerken. Vergadering van IEICE, Tokio, Japan, 1987. Backpropagation voor een gewicht-delende TDNN met 1-dimensionale convoluties.
[5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Shift-invariant patroonherkenning neuraal netwerk en zijn optische architectuur. Proc. Jaarlijkse Conferentie van de Japan Society of Applied Physics, 1988. Eerste backpropagation-getrainde 2-dimensionale CNN, met toepassingen voor Engelse tekenherkenning.
[6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Backpropagation Toegepast op Handgeschreven Postcodeherkenning, Neural Computation, 1(4):541-551, 1989. Zie ook Sec. 3 van [10].
[7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Een Neuraal Netwerk voor Spreker-onafhankelijke Geïsoleerde Woordherkenning. Eerste Internationale Conferentie over Gesproken Taalverwerking (ICSLP 90), Kobe, Japan, nov 1990. Een 1-dimensionale convolutionele TDNN die Max-Pooling gebruikt in plaats van Fukushima's Ruimtelijke Averaging [1].
[8] Weng, J., Ahuja, N., en Huang, T. S. (1993). Leren van herkenning en segmentatie van 3-D objecten uit 2-D beelden. Proc. 4e Intl. Conf. Computer Vision, Berlijn, pp. 121-128. Een 2-dimensionale CNN waarvan de downsamplinglagen Max-Pooling gebruiken (wat zeer populair is geworden) in plaats van Fukushima's Ruimtelijke Averaging [1].
[9] In 2011 behaalde de snelle en diepe GPU-gebaseerde CNN genaamd DanNet (7+ lagen) de eerste superieure prestaties in een computer vision wedstrijd. Zie overzicht: "2011: DanNet triggert diepe CNN-revolutie."
[10] Hoe 3 Turing-prijswinnaars belangrijke methoden en ideeën herpubliceerden waarvan de makers niet werden gecrediteerd. Technisch Rapport IDSIA-23-23, Swiss AI Lab IDSIA, 14 dec 2023. Zie ook de YouTube-video voor de Bower Award Ceremony 2021: J. Schmidhuber prijst Kunihiko Fukushima.

346,77K
Boven
Positie
Favorieten