Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jürgen Schmidhuber
Prinsip-prinsip meta-learning yang diciptakan (1987), GAN (1990), Transformers (1991), pembelajaran yang sangat mendalam (1991), dll. AI kami digunakan miliaran kali setiap hari.
Siapa yang menemukan jaringan saraf konvolusional (CNN)?
1969: Fukushima memiliki ReLU yang relevan dengan CNN [2].
1979: Fukushima memiliki arsitektur CNN dasar dengan lapisan konvolusi dan lapisan downsampling [1]. Komputasi 100 x lebih mahal daripada pada tahun 1989, dan satu miliar x lebih mahal daripada hari ini.
1987: Waibel menerapkan propagasi balik Linnainmaa tahun 1970 [3] untuk TDNN pembagian berat dengan konvolusi 1 dimensi [4].
1988: Wei Zhang et al. menerapkan CNN 2 dimensi "modern" yang dilatih backprop untuk pengenalan karakter [5].
Semua hal di atas diterbitkan di Jepang 1979-1988.
1989: LeCun et al. menerapkan CNN lagi untuk pengenalan karakter (kode pos) [6,10].
1990-93: Downsampling Fukushima berdasarkan rata-rata spasial [1] digantikan oleh max-pooling untuk TDNN 1-D (Yamaguchi et al.) [7] dan CNN 2-D (Weng et al.) [8].
2011: Jauh kemudian, tim saya dengan Dan Ciresan membuat CNN max-pooling dengan sangat cepat di GPU NVIDIA. Pada tahun 2011, DanNet mencapai hasil pengenalan pola manusia super pertama [9]. Untuk sementara, ia menikmati monopoli: dari Mei 2011 hingga September 2012, DanNet memenangkan setiap tantangan pengenalan gambar yang diikutinya, 4 di antaranya berturut-turut. Namun, harus diakui, ini sebagian besar tentang rekayasa & meningkatkan wawasan dasar dari milenium sebelumnya, mendapatkan keuntungan dari perangkat keras yang jauh lebih cepat.
Beberapa "pakar AI" mengklaim bahwa "membuat CNN bekerja" (misalnya, [5,6,9]) sama pentingnya dengan menemukannya. Tetapi "membuatnya bekerja" sangat tergantung pada apakah laboratorium Anda cukup kaya untuk membeli komputer terbaru yang diperlukan untuk meningkatkan karya aslinya. Ini sama seperti hari ini. Penelitian dasar vs rekayasa/pengembangan - R vs D dalam R&D.
REFERENSI
[1] K. Fukushima (1979). Model jaringan saraf untuk mekanisme pengenalan pola yang tidak terpengaruh oleh pergeseran posisi - Neocognitron. Trans. IECE, vol. J62-A, no. 10, hlm. 658-665, 1979.
[2] K. Fukushima (1969). Ekstraksi fitur visual oleh jaringan elemen ambang analog berlapis-lapis. Transaksi IEEE tentang Ilmu Sistem dan Sibernetika. 5 (4): 322-333. Pekerjaan ini memperkenalkan unit linier yang diperbaiki (ReLU), yang sekarang digunakan di banyak CNN.
[3] S. Linnainmaa (1970). Tesis Master, Univ. Helsinki, 1970. Publikasi pertama tentang propagasi balik "modern", juga dikenal sebagai mode terbalik diferensiasi otomatis. (Lihat ikhtisar backpropagation Schmidhuber yang terkenal: "Siapa yang Menemukan Backpropagation?")
[4] A. Waibel. Pengenalan fonem menggunakan jaringan saraf penundaan waktu. Pertemuan IEICE, Tokyo, Jepang, 1987. Propagasi balik untuk TDNN pembagian berat dengan konvolusi 1 dimensi.
[5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Jaringan saraf pengenalan pola invarian pergeseran dan arsitektur optiknya. Konferensi Tahunan Masyarakat Fisika Terapan Jepang, 1988. CNN 2 dimensi yang dilatih backpropagation pertama, dengan aplikasi untuk pengenalan karakter bahasa Inggris.
[6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Backpropagation Applied to Handwritten Postal Code Recognition, Neural Computation, 1(4):541-551, 1989. Lihat juga Bagian 3 dari [10].
[7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Jaringan saraf untuk pengenalan kata terisolasi independen pembicara. Konferensi Internasional Pertama tentang Pemrosesan Bahasa Lisan (ICSLP 90), Kobe, Jepang, November 1990. TDNN konvolusional 1 dimensi menggunakan Max-Pooling, bukan Spatial Averaging Fukushima [1].
[8] Weng, J., Ahuja, N., dan Huang, TS (1993). Mempelajari pengenalan dan segmentasi objek 3-D dari gambar 2-D. Proc. 4th Intl. Conf. Computer Vision, Berlin, hlm. 121-128. CNN 2 dimensi yang lapisan downsampling menggunakan Max-Pooling (yang telah menjadi sangat populer) alih-alih Spatial Averaging Fukushima [1].
[9] Pada tahun 2011, CNN berbasis GPU yang cepat dan dalam bernama DanNet (7+ lapisan) mencapai kinerja manusia super pertama dalam kontes visi komputer. Lihat ikhtisar: "2011: DanNet memicu revolusi CNN yang dalam."
[10] Bagaimana 3 penerima penghargaan Turing menerbitkan ulang metode dan ide utama yang penciptanya gagal mereka kreditkan. Laporan Teknis IDSIA-23-23, Swiss AI Lab IDSIA, 14 Des 2023. Lihat juga video YouTube untuk Upacara Penghargaan Bower 2021: J. Schmidhuber memuji Kunihiko Fukushima.

346,78K
Siapa yang menemukan perambatan balik (BP)? Versi modernnya (juga disebut mode terbalik diferensiasi otomatis) pertama kali diterbitkan pada tahun 1970 oleh mahasiswa master Finlandia Seppo Linnainmaa. Seorang pendahulu BP diterbitkan oleh Henry J. Kelley pada tahun 1960. Aplikasi khusus NN pertama dari BP dijelaskan oleh Paul Werbos pada tahun 1982 (tetapi belum dalam tesisnya tahun 1974, seperti yang kadang-kadang diklaim).
Beberapa bertanya: "Bukankah penyebaran balik hanya aturan berantai Leibniz (1676)?" Tidak, ini adalah cara yang efisien untuk menerapkan aturan rantai ke jaringan besar dengan node yang dapat dibedakan. (Ada juga banyak cara yang tidak efisien untuk melakukan ini.) Itu tidak diterbitkan sampai tahun 1970.
Lihat halaman web ikhtisar backpropagation dengan detail selengkapnya:
Lihat juga "Sejarah Beranotasi AI Modern dan Pembelajaran Mendalam" (2022):

34,5K
AI Fisik 10 tahun yang lalu: robot bayi menemukan eksperimennya sendiri untuk meningkatkan model dunia sarafnya
Kompella, Stollenga, Luciw, Schmidhuber. Akuisisi keterampilan yang didorong oleh rasa ingin tahu yang berkelanjutan dari input video dimensi tinggi untuk robot humanoid. Kecerdasan Buatan, 2015

10,73K
1 dekade yang lalu: Insinyur Prompt Pembelajaran Penguatan di Bagian 5.3 dari «Belajar Berpikir ...» [2]. Rantai Pemikiran Adaptif! Jaring RL belajar menanyakan jaring lain untuk penalaran abstrak & pengambilan keputusan. Melampaui Model Dunia 1990 untuk perencanaan milidetik demi milidetik [1].
[2] J. Schmidhuber (JS, 2015). «Tentang Belajar Berpikir: Teori Informasi Algoritmik untuk Kombinasi Baru Pengontrol RL dan Model Dunia Saraf Berulang.» ArXiv 1210.0118
[1] JS (1990). "Membuat dunia dapat dibedakan: Tentang menggunakan jaringan saraf yang diawasi sendiri sepenuhnya berulang untuk pembelajaran dan perencanaan penguatan dinamis di lingkungan non-stasioner." TR FKI-126-90, TUM. (Laporan ini juga memperkenalkan keingintahuan buatan dan motivasi intrinsik melalui jaringan permusuhan generatif.)

23,93K
10 tahun yang lalu, pada Mei 2015, kami menerbitkan jaringan saraf feedforward berbasis gradien (FNN) pertama yang bekerja sangat dalam dengan ratusan lapisan (FNN sebelumnya memiliki maksimum beberapa lusin lapisan). Untuk mengatasi masalah gradien yang menghilang, Jaringan Jalan Raya kami menggunakan koneksi sisa yang pertama kali diperkenalkan pada tahun 1991 oleh @HochreiterSepp untuk mencapai aliran kesalahan konstan dalam NN berulang (RNN), yang dijaga melalui gerbang perkalian yang mirip dengan gerbang lupa (Gers et al., 1999) dari LSTM RNN kami yang sangat dalam. Highway NN dimungkinkan melalui karya mantan mahasiswa PhD saya @rupspace dan Klaus Greff. Mengatur gerbang Highway NN ke 1.0 secara efektif memberi kita ResNet yang diterbitkan 7 bulan kemudian.
Pembelajaran mendalam adalah tentang kedalaman NN. LSTM pada dasarnya membawa kedalaman tak terbatas ke NN berulang; Highway Nets membawanya ke feedforward NN.
20,76K
1991: Distilasi jaringan saraf pertama [1-3]. Saya menyebutnya "runtuh", saat itu, bukan "penyulingan."
Referensi
[1] J. Schmidhuber (1991). Chunkers urutan saraf. Laporan Teknologi FKI-148-91, Tech Univ. Munich. Bagian 3.2.2. Bagian 4 adalah tentang "runtuh" atau "penyulingan" atau "mengompres" pengetahuan tentang jaringan saraf ke jaringan saraf lain.
[2] JS (1992). Mempelajari urutan yang kompleks dan diperpanjang menggunakan prinsip kompresi sejarah. Komputasi Saraf, 4(2):234-242, 1992. Berdasarkan [1].
[3] JS (Blog AI, 2021, diperbarui 2025). 1991: Pembelajaran pertama yang sangat mendalam dengan pra-pelatihan tanpa pengawasan. Distilasi jaringan saraf pertama.

16,24K
Semua orang berbicara tentang perbaikan diri rekursif & Mesin Gödel sekarang & bagaimana ini akan mengarah pada AGI. Sungguh perubahan dari 15 tahun yang lalu! Kami mengadakan AGI'2010 di Lugano dan memimpin AGI'2011 di Google. Tulang punggung konferensi AGI adalah AI Universal yang optimal secara matematis: Mesin Gödel 2003 (AIXI dan @mhutter42 - lihat buku UAI 2005-nya dan pembaruan 2024 baru-baru ini (Saya bangga bahwa karya AIXI Marcus Hutter didanai oleh hibah SNF Swiss 2000 saya ketika dia menjadi postdoc di IDSIA.

57,22K
AGI? Suatu hari, tapi belum. Satu-satunya AI yang bekerja dengan baik saat ini adalah yang berada di belakang layar [12-17]. Tetapi lulus Tes Turing [9] di belakang layar mudah dibandingkan dengan AI Nyata untuk robot sungguhan di dunia nyata. Tidak ada robot yang digerakkan oleh AI saat ini yang dapat disertifikasi sebagai tukang ledeng [13-17]. Oleh karena itu, Tes Turing bukanlah ukuran kecerdasan yang baik (dan IQ juga tidak). Dan AGI tanpa penguasaan dunia fisik bukanlah AGI. Itu sebabnya saya menciptakan TUM CogBotLab untuk robot pembelajaran pada tahun 2004 [5], ikut mendirikan perusahaan untuk AI di dunia fisik pada tahun 2014 [6], dan memiliki tim di TUM, IDSIA, dan sekarang KAUST bekerja untuk robot bayi [4,10-11,18]. Robot lunak seperti itu tidak hanya meniru manusia dan mereka tidak bekerja hanya dengan mengunduh web seperti LLM/VLM. Tidak. Sebaliknya, mereka mengeksploitasi prinsip-prinsip Keingintahuan Buatan untuk meningkatkan Model Dunia saraf mereka (dua istilah yang saya gunakan pada tahun 1990 [1-4]). Robot-robot ini bekerja dengan banyak sensor, tetapi hanya aktuator yang lemah, sehingga mereka tidak dapat dengan mudah membahayakan diri mereka sendiri [18] ketika mereka mengumpulkan data yang berguna dengan merancang dan menjalankan eksperimen yang mereka ciptakan sendiri.
Hebatnya, sejak tahun 1970-an, banyak yang mengolok-olok tujuan lama saya untuk membangun AGI yang meningkatkan diri lebih pintar dari saya dan kemudian pensiun. Namun, baru-baru ini, banyak yang akhirnya mulai menanggapi hal ini dengan serius, dan sekarang beberapa dari mereka tiba-tiba TERLALU optimis. Orang-orang ini seringkali tidak menyadari tantangan yang tersisa yang harus kita selesaikan untuk mencapai AI Nyata. Pembicaraan TED 2024 saya [15] merangkum beberapa dari itu.
REFERENSI (mudah ditemukan di web):
[1] J. Schmidhuber. Membuat dunia dapat dibedakan: Tentang menggunakan jaringan saraf (NN) yang diawasi mandiri sepenuhnya berulang untuk pembelajaran dan perencanaan penguatan dinamis di lingkungan non-stasioner. TR FKI-126-90, TUM, Februari 1990, direvisi November 1990. Makalah ini juga memperkenalkan keingintahuan buatan dan motivasi intrinsik melalui jaringan musuh generatif di mana NN generator melawan NN prediktor dalam game minimax.
[2] J. S. Kemungkinan untuk menerapkan rasa ingin tahu dan kebosanan dalam pengontrol saraf pembuatan model. Dalam J. A. Meyer dan S. W. Wilson, editor, Proc. dari Konferensi Internasional tentang Simulasi Perilaku Adaptif: Dari Hewan ke Animat, halaman 222-227. MIT Press/Bradford Books, 1991. Berdasarkan [1].
[3] Blog JS AI (2020). 1990: Perencanaan & Pembelajaran Penguatan dengan Model Dunia Berulang dan Keingintahuan Buatan. Merangkum aspek [1][2] dan banyak makalah selanjutnya termasuk [7][8].
[4] Blog JS AI (2021): Keingintahuan & Kreativitas Buatan Sejak 1990. Merangkum aspek [1][2] dan banyak makalah selanjutnya termasuk [7][8].
[5] J.S. TU Munich CogBotLab untuk robot pembelajaran (2004-2009)
[6] NNAISENSE, didirikan pada tahun 2014, untuk AI di dunia fisik
[7] JS (2015). Tentang Belajar Berpikir: Teori Informasi Algoritmik untuk Kombinasi Baru Pengontrol Pembelajaran Penguatan (RL) dan Model Dunia Saraf Berulang. arXiv 1210.0118. Bagian 5.3 menggambarkan insinyur prompt RL yang belajar menanyakan modelnya untuk penalaran abstrak dan perencanaan dan pengambilan keputusan. Hari ini ini disebut "rantai pemikiran."
[8] JS (2018). Satu Jaring Besar Untuk Segalanya. arXiv 1802.08864. Lihat juga US11853886B2 paten dan tweet DeepSeek saya: DeepSeek menggunakan elemen insinyur prompt pembelajaran penguatan 2015 [7] dan penyempurnaannya pada tahun 2018 [8] yang meruntuhkan mesin RL dan model dunia [7] menjadi satu jaring. Ini menggunakan prosedur distilasi jaring saraf saya tahun 1991: rantai sistem berpikir yang disuling.
[9] J.S. Turing Oversold. Namun, itu bukan salah Turing. AI Blog (2021, adalah #1 di Hacker News)
[10] J.S. Intelligente Roboter werden vom Leben fasziniert sein. (Robot cerdas akan terpesona oleh kehidupan.) F.A.Z., 2015
[11] JS di Dinding Jatuh: Masa Lalu, Sekarang, dan Masa Depan Kecerdasan Buatan. Ilmiah Amerika, Pengamatan, 2017.
[12] J.S. KI ist eine Riesenchance für Deutschland. (AI adalah peluang besar bagi Jerman.) AZ, 2018
[13] H. Jones. J.S. Mengatakan Pekerjaan Hidupnya Tidak Akan Mengarah Pada Distopia. Majalah Forbes, 2023.
[14] Wawancara dengan J.S. Jazzyear, Shanghai, 2024.
[15] Pembicaraan JS TED di TED AI Wina (2024): Mengapa 2042 akan menjadi tahun yang besar bagi AI. Lihat klip video terlampir.
[16] J.S. Baut den KI-gesteuerten Allzweckroboter! (Bangun robot serbaguna yang dikendalikan AI!) FAZ, 2024
[17] J.S. 1995-2025: Penurunan Jerman & Jepang vs AS & Cina. Bisakah Robot Serbaguna Memicu Comeback? AI Blog, Januari 2025, berdasarkan [16].
[18] M. Alhakami, D. R. Ashley, J. Dunham, Y. Dai, F. Faccio, E. Feron, J. Schmidhuber. Menuju robot bayi yang sangat kuat dengan kemampuan interaksi yang kaya untuk algoritme pembelajaran mesin tingkat lanjut. Pracetak arxiv 2404.08093, 2024.
67,26K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal