Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Хто винайшов згорткові нейронні мережі (CNN)?
1969: На Фукусімі з'явилися ReLU, що відповідають CNN [2].
1979: На Фукусімі з'явилася базова архітектура CNN зі згортковими шарами та шарами даунсемплінгу [1]. Обчислення були в 100 разів дорожчими, ніж у 1989 році, і в мільярд разів дорожчими, ніж сьогодні.
1987: Вайбел застосував зворотне поширення Linnainmaa 1970 року [3] до TDNN з розподілом ваги з 1-вимірними звивинами [4].
1988: Wei Zhang et al. застосували «сучасні» 2-вимірні CNN, навчені зворотним реквізитом, для розпізнавання символів [5].
Все перераховане було опубліковано в Японії в 1979-1988 роках.
1989: LeCun et al. знову застосували CNN для розпізнавання символів (поштових індексів) [6,10].
1990-93: Даунсемлінг Фукусіми на основі просторового усереднення [1] був замінений максимальним об'єднанням для 1-D TDNN (Yamaguchi et al.) [7] і 2-D CNN (Weng et al.) [8].
2011: Набагато пізніше моя команда з Деном Чіресаном (Dan Ciresan) зробила CNN з максимальним об'ємом продажів на графічних процесорах NVIDIA. У 2011 році компанія DanNet досягла першого надлюдського результату розпізнавання образів [9]. Деякий час вона користувалася монополією: з травня 2011 року по вересень 2012 року DanNet вигравала всі виклики з розпізнавання зображень, в яких брала участь, 4 з них поспіль. Слід визнати, однак, що це в основному стосувалося розробки та масштабування базових ідей попереднього тисячоліття, отримуючи вигоду від набагато швидшого обладнання.
Деякі «експерти зі штучного інтелекту» стверджують, що «змусити CNN працювати» (наприклад, [5,6,9]) було так само важливо, як і їх винахід. Але «змусити їх працювати» багато в чому залежало від того, чи була ваша лабораторія достатньо багатою, щоб купити найновіші комп'ютери, необхідні для масштабування оригінальної роботи. Це те ж саме, що і сьогодні. Фундаментальні дослідження vs інженерія/розробка - R vs D у R&D.
ПОСИЛАННЯ
[1] К. Фукусіма (1979). Нейромережева модель для механізму розпізнавання образів, на які не впливає зміна положення — Neocognitron. Переклад IECE, т. J62-A, No 10, с. 658-665, 1979.
[2] К. Фукусіма (1969). Візуальне виділення ознак багатошаровою мережею аналогових порогових елементів. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. У цій роботі були введені випрямлені лінійні одиниці (ReLUs), які зараз використовуються в багатьох CNN.
[3] S. Linnainmaa (1970). Магістерська дисертація, Гельсінський ун-т, 1970. Перша публікація, присвячена «сучасному» зворотному поширенню, також відомому як зворотний режим автоматичної диференціації. (Див. відомий огляд зворотного поширення Шмідгубера: «Хто винайшов зворотне поширення?»)
[4] А. Вайбель. Розпізнавання фонем за допомогою нейронних мереж із затримкою в часі. Зустріч IEICE, Токіо, Японія, 1987 рік. Зворотне поширення для TDNN з розподілом ваги з 1-вимірними звивинами.
[5] В. Чжан, Я. Таніда, К. Іто, Ю. Ічіока. Нейронна мережа з інваріантним розпізнаванням образів зі зсувом та її оптична архітектура. Щорічна конференція Японського товариства прикладної фізики, 1988. Перший навчений зворотному поширенню 2-вимірний CNN, з додатками для розпізнавання англійських символів.
[6] Ю. Лекун, Б. Босер, Д. С. Денкер, Д. Хендерсон, Р. Е. Говард, В. Хаббард, Л. Д. Джекель: Зворотне поширення, застосоване до розпізнавання рукописних поштових індексів, нейронні обчислення, 1(4):541-551, 1989. Дивіться також п. 3 [10].
[7] К. Ямагуті, К. Сакамото, А. Кенджі, Т. Акабане, Ю. Фудзімото. Нейронна мережа для незалежного від мовця розпізнавання ізольованих слів. Перша міжнародна конференція з обробки розмовної мови (ICSLP 90), Кобе, Японія, листопад 1990 р. 1-вимірна згорткова TDNN з використанням Max-Pooling замість просторового усереднення Фукусіми [1].
[8] Венг, Дж., Ахуджа, Н., і Хуанг, Т. С. (1993). Навчання розпізнаванню та сегментації 3-D об'єктів за 2-D зображеннями. 4-та міжнародна конференція комп'ютерного зору, Берлін, с. 121-128. 2-вимірний CNN, шари спадної дискретизації якого використовують Max-Pooling (який став дуже популярним) замість просторового усереднення Фукусіми [1].
[9] У 2011 році швидкий і глибокий CNN на основі графічного процесора під назвою DanNet (7+ шарів) досяг першого надлюдського виступу в змаганні з комп'ютерного зору. Дивіться огляд: "2011: DanNet запускає глибоку революцію CNN."
[10] Як 3 лауреати премії Тюрінга перевидавали ключові методи та ідеї, творців яких вони не змогли вказати. Технічний звіт IDSIA-23-23, Швейцарська лабораторія штучного інтелекту IDSIA, 14 грудня 2023 р. Дивіться також відео на YouTube до церемонії нагородження Bower Award 2021: Й. Шмідхубер хвалить Куніхіко Фукусіму.

346,79K
Найкращі
Рейтинг
Вибране