Хто винайшов згорткові нейронні мережі (CNN)? 1969: На Фукусімі з'явилися ReLU, що відповідають CNN [2]. 1979: На Фукусімі з'явилася базова архітектура CNN зі згортковими шарами та шарами даунсемплінгу [1]. Обчислення були в 100 разів дорожчими, ніж у 1989 році, і в мільярд разів дорожчими, ніж сьогодні. 1987: Вайбел застосував зворотне поширення Linnainmaa 1970 року [3] до TDNN з розподілом ваги з 1-вимірними звивинами [4]. 1988: Wei Zhang et al. застосували «сучасні» 2-вимірні CNN, навчені зворотним реквізитом, для розпізнавання символів [5]. Все перераховане було опубліковано в Японії в 1979-1988 роках. 1989: LeCun et al. знову застосували CNN для розпізнавання символів (поштових індексів) [6,10]. 1990-93: Даунсемлінг Фукусіми на основі просторового усереднення [1] був замінений максимальним об'єднанням для 1-D TDNN (Yamaguchi et al.) [7] і 2-D CNN (Weng et al.) [8]. 2011: Набагато пізніше моя команда з Деном Чіресаном (Dan Ciresan) зробила CNN з максимальним об'ємом продажів на графічних процесорах NVIDIA. У 2011 році компанія DanNet досягла першого надлюдського результату розпізнавання образів [9]. Деякий час вона користувалася монополією: з травня 2011 року по вересень 2012 року DanNet вигравала всі виклики з розпізнавання зображень, в яких брала участь, 4 з них поспіль. Слід визнати, однак, що це в основному стосувалося розробки та масштабування базових ідей попереднього тисячоліття, отримуючи вигоду від набагато швидшого обладнання. Деякі «експерти зі штучного інтелекту» стверджують, що «змусити CNN працювати» (наприклад, [5,6,9]) було так само важливо, як і їх винахід. Але «змусити їх працювати» багато в чому залежало від того, чи була ваша лабораторія достатньо багатою, щоб купити найновіші комп'ютери, необхідні для масштабування оригінальної роботи. Це те ж саме, що і сьогодні. Фундаментальні дослідження vs інженерія/розробка - R vs D у R&D. ПОСИЛАННЯ [1] К. Фукусіма (1979). Нейромережева модель для механізму розпізнавання образів, на які не впливає зміна положення — Neocognitron. Переклад IECE, т. J62-A, No 10, с. 658-665, 1979. [2] К. Фукусіма (1969). Візуальне виділення ознак багатошаровою мережею аналогових порогових елементів. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. У цій роботі були введені випрямлені лінійні одиниці (ReLUs), які зараз використовуються в багатьох CNN. [3] S. Linnainmaa (1970). Магістерська дисертація, Гельсінський ун-т, 1970. Перша публікація, присвячена «сучасному» зворотному поширенню, також відомому як зворотний режим автоматичної диференціації. (Див. відомий огляд зворотного поширення Шмідгубера: «Хто винайшов зворотне поширення?») [4] А. Вайбель. Розпізнавання фонем за допомогою нейронних мереж із затримкою в часі. Зустріч IEICE, Токіо, Японія, 1987 рік. Зворотне поширення для TDNN з розподілом ваги з 1-вимірними звивинами. [5] В. Чжан, Я. Таніда, К. Іто, Ю. Ічіока. Нейронна мережа з інваріантним розпізнаванням образів зі зсувом та її оптична архітектура. Щорічна конференція Японського товариства прикладної фізики, 1988. Перший навчений зворотному поширенню 2-вимірний CNN, з додатками для розпізнавання англійських символів. [6] Ю. Лекун, Б. Босер, Д. С. Денкер, Д. Хендерсон, Р. Е. Говард, В. Хаббард, Л. Д. Джекель: Зворотне поширення, застосоване до розпізнавання рукописних поштових індексів, нейронні обчислення, 1(4):541-551, 1989. Дивіться також п. 3 [10]. [7] К. Ямагуті, К. Сакамото, А. Кенджі, Т. Акабане, Ю. Фудзімото. Нейронна мережа для незалежного від мовця розпізнавання ізольованих слів. Перша міжнародна конференція з обробки розмовної мови (ICSLP 90), Кобе, Японія, листопад 1990 р. 1-вимірна згорткова TDNN з використанням Max-Pooling замість просторового усереднення Фукусіми [1]. [8] Венг, Дж., Ахуджа, Н., і Хуанг, Т. С. (1993). Навчання розпізнаванню та сегментації 3-D об'єктів за 2-D зображеннями. 4-та міжнародна конференція комп'ютерного зору, Берлін, с. 121-128. 2-вимірний CNN, шари спадної дискретизації якого використовують Max-Pooling (який став дуже популярним) замість просторового усереднення Фукусіми [1]. [9] У 2011 році швидкий і глибокий CNN на основі графічного процесора під назвою DanNet (7+ шарів) досяг першого надлюдського виступу в змаганні з комп'ютерного зору. Дивіться огляд: "2011: DanNet запускає глибоку революцію CNN." [10] Як 3 лауреати премії Тюрінга перевидавали ключові методи та ідеї, творців яких вони не змогли вказати. Технічний звіт IDSIA-23-23, Швейцарська лабораторія штучного інтелекту IDSIA, 14 грудня 2023 р. Дивіться також відео на YouTube до церемонії нагородження Bower Award 2021: Й. Шмідхубер хвалить Куніхіко Фукусіму.
346,79K