Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Siapa yang menemukan jaringan saraf konvolusional (CNN)?
1969: Fukushima memiliki ReLU yang relevan dengan CNN [2].
1979: Fukushima memiliki arsitektur CNN dasar dengan lapisan konvolusi dan lapisan downsampling [1]. Komputasi 100 x lebih mahal daripada pada tahun 1989, dan satu miliar x lebih mahal daripada hari ini.
1987: Waibel menerapkan propagasi balik Linnainmaa tahun 1970 [3] untuk TDNN pembagian berat dengan konvolusi 1 dimensi [4].
1988: Wei Zhang et al. menerapkan CNN 2 dimensi "modern" yang dilatih backprop untuk pengenalan karakter [5].
Semua hal di atas diterbitkan di Jepang 1979-1988.
1989: LeCun et al. menerapkan CNN lagi untuk pengenalan karakter (kode pos) [6,10].
1990-93: Downsampling Fukushima berdasarkan rata-rata spasial [1] digantikan oleh max-pooling untuk TDNN 1-D (Yamaguchi et al.) [7] dan CNN 2-D (Weng et al.) [8].
2011: Jauh kemudian, tim saya dengan Dan Ciresan membuat CNN max-pooling dengan sangat cepat di GPU NVIDIA. Pada tahun 2011, DanNet mencapai hasil pengenalan pola manusia super pertama [9]. Untuk sementara, ia menikmati monopoli: dari Mei 2011 hingga September 2012, DanNet memenangkan setiap tantangan pengenalan gambar yang diikutinya, 4 di antaranya berturut-turut. Namun, harus diakui, ini sebagian besar tentang rekayasa & meningkatkan wawasan dasar dari milenium sebelumnya, mendapatkan keuntungan dari perangkat keras yang jauh lebih cepat.
Beberapa "pakar AI" mengklaim bahwa "membuat CNN bekerja" (misalnya, [5,6,9]) sama pentingnya dengan menemukannya. Tetapi "membuatnya bekerja" sangat tergantung pada apakah laboratorium Anda cukup kaya untuk membeli komputer terbaru yang diperlukan untuk meningkatkan karya aslinya. Ini sama seperti hari ini. Penelitian dasar vs rekayasa/pengembangan - R vs D dalam R&D.
REFERENSI
[1] K. Fukushima (1979). Model jaringan saraf untuk mekanisme pengenalan pola yang tidak terpengaruh oleh pergeseran posisi - Neocognitron. Trans. IECE, vol. J62-A, no. 10, hlm. 658-665, 1979.
[2] K. Fukushima (1969). Ekstraksi fitur visual oleh jaringan elemen ambang analog berlapis-lapis. Transaksi IEEE tentang Ilmu Sistem dan Sibernetika. 5 (4): 322-333. Pekerjaan ini memperkenalkan unit linier yang diperbaiki (ReLU), yang sekarang digunakan di banyak CNN.
[3] S. Linnainmaa (1970). Tesis Master, Univ. Helsinki, 1970. Publikasi pertama tentang propagasi balik "modern", juga dikenal sebagai mode terbalik diferensiasi otomatis. (Lihat ikhtisar backpropagation Schmidhuber yang terkenal: "Siapa yang Menemukan Backpropagation?")
[4] A. Waibel. Pengenalan fonem menggunakan jaringan saraf penundaan waktu. Pertemuan IEICE, Tokyo, Jepang, 1987. Propagasi balik untuk TDNN pembagian berat dengan konvolusi 1 dimensi.
[5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Jaringan saraf pengenalan pola invarian pergeseran dan arsitektur optiknya. Konferensi Tahunan Masyarakat Fisika Terapan Jepang, 1988. CNN 2 dimensi yang dilatih backpropagation pertama, dengan aplikasi untuk pengenalan karakter bahasa Inggris.
[6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Backpropagation Applied to Handwritten Postal Code Recognition, Neural Computation, 1(4):541-551, 1989. Lihat juga Bagian 3 dari [10].
[7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Jaringan saraf untuk pengenalan kata terisolasi independen pembicara. Konferensi Internasional Pertama tentang Pemrosesan Bahasa Lisan (ICSLP 90), Kobe, Jepang, November 1990. TDNN konvolusional 1 dimensi menggunakan Max-Pooling, bukan Spatial Averaging Fukushima [1].
[8] Weng, J., Ahuja, N., dan Huang, TS (1993). Mempelajari pengenalan dan segmentasi objek 3-D dari gambar 2-D. Proc. 4th Intl. Conf. Computer Vision, Berlin, hlm. 121-128. CNN 2 dimensi yang lapisan downsampling menggunakan Max-Pooling (yang telah menjadi sangat populer) alih-alih Spatial Averaging Fukushima [1].
[9] Pada tahun 2011, CNN berbasis GPU yang cepat dan dalam bernama DanNet (7+ lapisan) mencapai kinerja manusia super pertama dalam kontes visi komputer. Lihat ikhtisar: "2011: DanNet memicu revolusi CNN yang dalam."
[10] Bagaimana 3 penerima penghargaan Turing menerbitkan ulang metode dan ide utama yang penciptanya gagal mereka kreditkan. Laporan Teknis IDSIA-23-23, Swiss AI Lab IDSIA, 14 Des 2023. Lihat juga video YouTube untuk Upacara Penghargaan Bower 2021: J. Schmidhuber memuji Kunihiko Fukushima.

346,79K
Teratas
Peringkat
Favorit