Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Кто изобрел сверточные нейронные сети (CNN)?
1969: Фукушима разработал ReLU, относящиеся к CNN [2].
1979: Фукушима создал базовую архитектуру CNN с сверточными слоями и слоями понижения размерности [1]. Вычисления были в 100 раз дороже, чем в 1989 году, и в миллиард раз дороже, чем сегодня.
1987: Уайбел применил обратное распространение ошибки Линнаинмаа 1970 года [3] к TDNN с разделением весов и одномерными свертками [4].
1988: Вэй Чжан и др. применили "современные" CNN с обратным распространением для распознавания символов [5].
Все вышеперечисленное было опубликовано в Японии с 1979 по 1988 год.
1989: Лекун и др. снова применили CNN для распознавания символов (почтовых индексов) [6,10].
1990-93: Понижение размерности Фукушима на основе пространственного усреднения [1] было заменено на макс-пулинг для 1-D TDNN (Ямагути и др.) [7] и 2-D CNN (Венг и др.) [8].
2011: Much later, моя команда с Дэном Сиресаном сделала макс-пулинг CNN действительно быстрыми на графических процессорах NVIDIA. В 2011 году DanNet достиг первого суперчеловеческого результата в распознавании образов [9]. В течение некоторого времени он пользовался монополией: с мая 2011 года по сентябрь 2012 года DanNet выиграл каждый конкурс по распознаванию изображений, в которых участвовал, 4 из них подряд. Тем не менее, это в основном касалось инженерии и масштабирования основных идей предыдущего тысячелетия, извлекая выгоду из гораздо более быстрого оборудования.
Некоторые "эксперты в области ИИ" утверждают, что "заставить CNN работать" (например, [5,6,9]) было так же важно, как и их изобретение. Но "заставить их работать" в значительной степени зависело от того, было ли ваше лабораторное оборудование достаточно богатым, чтобы купить последние компьютеры, необходимые для масштабирования оригинальной работы. Это то же самое, что и сегодня. Базовые исследования против инженерии/разработки - R против D в R&D.
СПИСОК ЛИТЕРАТУРЫ
[1] K. Fukushima (1979). Модель нейронной сети для механизма распознавания образов, не подверженного смещению в позиции — Неокогнитрон. Трансакции IECE, том. J62-A, № 10, стр. 658-665, 1979.
[2] K. Fukushima (1969). Извлечение визуальных признаков с помощью многослойной сети аналоговых пороговых элементов. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Эта работа представила исправленные линейные единицы (ReLU), которые теперь используются во многих CNN.
[3] S. Linnainmaa (1970). Магистерская диссертация, Унив. Хельсинки, 1970. Первое издание о "современном" обратном распространении, также известном как обратный режим автоматического дифференцирования. (См. известный обзор обратного распространения Шмидхубера: "Кто изобрел обратное распространение?")
[4] A. Waibel. Распознавание фонем с использованием нейронных сетей с задержкой. Встреча IEICE, Токио, Япония, 1987. Обратное распространение для TDNN с разделением весов и одномерными свертками.
[5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Нейронная сеть для распознавания образов, инвариантных к смещению, и ее оптическая архитектура. Труды ежегодной конференции Японского общества прикладной физики, 1988. Первая CNN, обученная с помощью обратного распространения, с приложениями к распознаванию английских символов.
[6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Обратное распространение, примененное к распознаванию рукописных почтовых индексов, Нейронные вычисления, 1(4):541-551, 1989. См. также раздел 3 [10].
[7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Нейронная сеть для распознавания изолированных слов, независимых от говорящего. Первая международная конференция по обработке разговорной речи (ICSLP 90), Кобе, Япония, ноябрь 1990. Одномерный сверточный TDNN с использованием макс-пулинга вместо пространственного усреднения Фукушима [1].
[8] Weng, J., Ahuja, N., и Huang, T. S. (1993). Обучение распознаванию и сегментации 3-D объектов из 2-D изображений. Труды 4-й международной конференции по компьютерному зрению, Берлин, стр. 121-128. Двумерная CNN, слои понижения размерности которой используют макс-пулинг (который стал очень популярным) вместо пространственного усреднения Фукушима [1].
[9] В 2011 году быстрая и глубокая CNN на основе GPU под названием DanNet (7+ слоев) достигла первого суперчеловеческого результата в конкурсе по компьютерному зрению. См. обзор: "2011: DanNet запускает революцию глубоких CNN."
[10] Как 3 лауреата премии Тьюринга перепубликовали ключевые методы и идеи, создатели которых не были указаны. Технический отчет IDSIA-23-23, Швейцарская лаборатория ИИ IDSIA, 14 декабря 2023 года. См. также видео на YouTube для церемонии вручения премии Бауэра 2021 года: Дж. Шмидхубер восхваляет Кунихико Фукушиму.

346,77K
Топ
Рейтинг
Избранное