Quem inventou as redes neurais convolucionais (CNNs)? 1969: Fukushima teve ReLUs relevantes para CNN [2]. 1979: Fukushima teve a arquitetura básica de CNN com camadas de convolução e camadas de downsampling [1]. O custo computacional era 100 vezes mais caro do que em 1989, e um bilhão de vezes mais caro do que hoje. 1987: Waibel aplicou a retropropagação de Linnainmaa de 1970 [3] a TDNNs com compartilhamento de pesos e convoluções unidimensionais [4]. 1988: Wei Zhang et al. aplicaram CNNs bidimensionais treinadas por retropropagação "modernas" ao reconhecimento de caracteres [5]. Tudo o que foi mencionado acima foi publicado no Japão entre 1979 e 1988. 1989: LeCun et al. aplicaram CNNs novamente ao reconhecimento de caracteres (códigos postais) [6,10]. 1990-93: O downsampling de Fukushima baseado em média espacial [1] foi substituído por max-pooling para TDNNs unidimensionais (Yamaguchi et al.) [7] e CNNs bidimensionais (Weng et al.) [8]. 2011: Muito mais tarde, minha equipe com Dan Ciresan fez com que as CNNs com max-pooling fossem realmente rápidas em GPUs NVIDIA. Em 2011, DanNet alcançou o primeiro resultado de reconhecimento de padrões super-humano [9]. Por um tempo, desfrutou de um monopólio: de maio de 2011 a setembro de 2012, DanNet venceu todos os desafios de reconhecimento de imagem que participou, 4 deles consecutivos. Admitidamente, no entanto, isso se deveu principalmente à engenharia e à escalabilidade das percepções básicas do milênio anterior, beneficiando-se de hardware muito mais rápido. Alguns "especialistas em IA" afirmam que "fazer as CNNs funcionarem" (por exemplo, [5,6,9]) foi tão importante quanto inventá-las. Mas "fazer com que funcionem" dependia em grande parte de se o seu laboratório era rico o suficiente para comprar os computadores mais recentes necessários para escalar o trabalho original. É o mesmo que hoje. Pesquisa básica vs engenharia/desenvolvimento - o R vs o D em P&D. REFERÊNCIAS [1] K. Fukushima (1979). Modelo de rede neural para um mecanismo de reconhecimento de padrões não afetado por deslocamento de posição — Neocognitron. Trans. IECE, vol. J62-A, no. 10, pp. 658-665, 1979. [2] K. Fukushima (1969). Extração de características visuais por uma rede multilayer de elementos de limiar analógico. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Este trabalho introduziu unidades lineares retificadas (ReLUs), agora usadas em muitas CNNs. [3] S. Linnainmaa (1970). Dissertação de Mestrado, Univ. Helsinki, 1970. A primeira publicação sobre "retropropagação moderna", também conhecida como o modo reverso de diferenciação automática. (Veja a visão geral bem conhecida de retropropagação de Schmidhuber: "Quem Inventou a Retropropagação?") [4] A. Waibel. Reconhecimento de Fonemas Usando Redes Neurais de Atraso de Tempo. Reunião da IEICE, Tóquio, Japão, 1987. Retropropagação para um TDNN com compartilhamento de pesos e convoluções unidimensionais. [5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Rede neural de reconhecimento de padrões invariante a deslocamentos e sua arquitetura óptica. Proc. Conferência Anual da Sociedade Japonesa de Física Aplicada, 1988. Primeira CNN bidimensional treinada por retropropagação, com aplicações ao reconhecimento de caracteres em inglês. [6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Retropropagação Aplicada ao Reconhecimento de Códigos Postais Manuscritos, Neural Computation, 1(4):541-551, 1989. Veja também a Sec. 3 de [10]. [7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Uma Rede Neural para Reconhecimento de Palavras Isoladas Independente do Falante. Primeira Conferência Internacional sobre Processamento de Linguagem Falada (ICSLP 90), Kobe, Japão, Nov 1990. Um TDNN unidimensional convolucional usando Max-Pooling em vez da Média Espacial de Fukushima [1]. [8] Weng, J., Ahuja, N., e Huang, T. S. (1993). Aprendendo reconhecimento e segmentação de objetos 3-D a partir de imagens 2-D. Proc. 4ª Conferência Internacional de Visão Computacional, Berlim, pp. 121-128. Uma CNN bidimensional cujas camadas de downsampling usam Max-Pooling (que se tornou muito popular) em vez da Média Espacial de Fukushima [1]. [9] Em 2011, a CNN rápida e profunda baseada em GPU chamada DanNet (7+ camadas) alcançou o primeiro desempenho super-humano em um concurso de visão computacional. Veja a visão geral: "2011: DanNet desencadeia a revolução das CNNs profundas." [10] Como 3 premiados com o prêmio Turing republicaram métodos e ideias-chave cujos criadores falharam em creditar. Relatório Técnico IDSIA-23-23, Laboratório de IA Suíço IDSIA, 14 de dezembro de 2023. Veja também o vídeo do YouTube para a Cerimônia do Prêmio Bower 2021: J. Schmidhuber elogia Kunihiko Fukushima.
346,77K