DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Jürgen Schmidhuber

Princípios inventados de meta-aprendizagem (1987), GANs (1990), Transformers (1991), aprendizagem muito profunda (1991), etc. Nossa IA é usada muitos bilhões de vezes todos os dias.

Quem inventou as redes neurais convolucionais (CNNs)? 1969: Fukushima tinha ReLUs relevantes para a CNN [2]. 1979: Fukushima tinha a arquitetura básica da CNN com camadas de convolução e camadas de downsampling [1]. A computação era 100 vezes mais cara do que em 1989 e um bilhão de vezes mais cara do que hoje. 1987: Waibel aplicou a retropropagação de Linnainmaa de 1970 [3] a TDNNs de compartilhamento de peso com convoluções unidimensionais [4]. 1988: Wei Zhang et al. aplicaram CNNs bidimensionais "modernas" treinadas por backprop ao reconhecimento de caracteres [5]. Todos os itens acima foram publicados no Japão de 1979 a 1988. 1989: LeCun et al. aplicaram CNNs novamente ao reconhecimento de caracteres (códigos postais) [6,10]. 1990-93: A redução da amostragem de Fukushima com base na média espacial [1] foi substituída por max-pooling para TDNNs 1-D (Yamaguchi et al.) [7] e CNNs 2-D (Weng et al.) [8]. 2011: Muito mais tarde, minha equipe com Dan Ciresan fez o pooling máximo de CNNs muito rápido em GPUs NVIDIA. Em 2011, a DanNet alcançou o primeiro resultado de reconhecimento de padrões sobre-humanos [9]. Por um tempo, desfrutou de um monopólio: de maio de 2011 a setembro de 2012, a DanNet venceu todos os desafios de reconhecimento de imagem em que participou, 4 deles consecutivos. É certo, no entanto, que isso foi principalmente sobre engenharia e ampliação dos insights básicos do milênio anterior, lucrando com hardware muito mais rápido. Alguns "especialistas em IA" afirmam que "fazer as CNNs funcionarem" (por exemplo, [5,6,9]) foi tão importante quanto inventá-las. Mas "fazê-los funcionar" dependia em grande parte de seu laboratório ser rico o suficiente para comprar os computadores mais recentes necessários para ampliar o trabalho original. É o mesmo que hoje. Pesquisa básica vs engenharia/desenvolvimento - o R vs o D em P&D. REFERÊNCIAS [1] K. Fukushima (1979). Modelo de rede neural para um mecanismo de reconhecimento de padrões não afetado pela mudança de posição - Neocognitron. IECE, vol. J62-A, nº 10, pp. 658-665, 1979. [2] K. Fukushima (1969). Extração de recursos visuais por uma rede multicamadas de elementos de limiar analógicos. Transações IEEE em Ciência de Sistemas e Cibernética. 5 (4): 322-333. Este trabalho introduziu unidades lineares retificadas (ReLUs), agora usadas em muitas CNNs. [3] S. Linnainmaa (1970). Tese de Mestrado, Univ. Helsinque, 1970. A primeira publicação sobre retropropagação "moderna", também conhecida como modo reverso de diferenciação automática. (Veja a conhecida visão geral da retropropagação de Schmidhuber: "Quem inventou a retropropagação?") [4] A. Waibel. Reconhecimento de fonemas usando redes neurais de atraso de tempo. Reunião do IEICE, Tóquio, Japão, 1987. Retropropagação para um TDNN de compartilhamento de peso com convoluções 1-dimensionais. [5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Rede neural de reconhecimento de padrões invariável de deslocamento e sua arquitetura óptica. Proc. Conferência Anual da Sociedade Japonesa de Física Aplicada, 1988. Primeira CNN bidimensional treinada em retropropagação, com aplicações para reconhecimento de caracteres em inglês. [6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Retropropagação Aplicada ao Reconhecimento de Código Postal Manuscrito, Computação Neural, 1(4):541-551, 1989. Veja também a Seção 3 de [10]. [7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Uma rede neural para reconhecimento de palavras isoladas independentes do falante. Primeira Conferência Internacional sobre Processamento de Linguagem Falada (ICSLP 90), Kobe, Japão, novembro de 1990. Um TDNN convolucional de 1 dimensão usando Max-Pooling em vez da média espacial de Fukushima [1]. [8] Weng, J., Ahuja, N., e Huang, T. S. (1993). Aprendendo reconhecimento e segmentação de objetos 3D a partir de imagens 2D. Proc. 4ª Conferência Internacional de Visão Computacional, Berlim, pp. 121-128. Uma CNN bidimensional cujas camadas de downsampling usam Max-Pooling (que se tornou muito popular) em vez da Média Espacial de Fukushima [1]. [9] Em 2011, a CNN rápida e profunda baseada em GPU chamada DanNet (7+ camadas) alcançou o primeiro desempenho sobre-humano em um concurso de visão computacional. Veja a visão geral: "2011: DanNet desencadeia profunda revolução na CNN." [10] Como 3 premiados com Turing republicaram métodos e ideias importantes cujos criadores eles não deram crédito. Relatório Técnico IDSIA-23-23, Swiss AI Lab IDSIA, 14 de dezembro de 2023. Veja também o vídeo do YouTube para a Cerimônia de Premiação Bower 2021: J. Schmidhuber elogia Kunihiko Fukushima.

AGI? Um dia, mas ainda não. A única IA que funciona bem agora é a que está atrás da tela [12-17]. Mas passar no Teste de Turing [9] atrás de uma tela é fácil em comparação com a IA real para robôs reais no mundo real. Nenhum robô atual acionado por IA poderia ser certificado como encanador [13-17]. Portanto, o Teste de Turing não é uma boa medida de inteligência (e nem o QI). E AGI sem domínio do mundo físico não é AGI. É por isso que criei o TUM CogBotLab para robôs de aprendizagem em 2004 [5], cofundei uma empresa de IA no mundo físico em 2014 [6] e tive equipes na TUM, IDSIA e agora KAUST trabalhando em robôs bebês [4,10-11,18]. Esses robôs macios não apenas imitam os humanos servilmente e não funcionam apenas baixando a web como LLMs / VLMs. Não. Em vez disso, eles exploram os princípios da Curiosidade Artificial para melhorar seus Modelos de Mundo neurais (dois termos que usei em 1990 [1-4]). Esses robôs trabalham com muitos sensores, mas apenas atuadores fracos, de modo que não podem se machucar facilmente [18] quando coletam dados úteis ao criar e executar seus próprios experimentos auto-inventados. Notavelmente, desde a década de 1970, muitos zombaram do meu antigo objetivo de construir uma AGI auto-aperfeiçoada mais inteligente do que eu e depois me aposentar. Recentemente, no entanto, muitos finalmente começaram a levar isso a sério, e agora alguns deles estão repentinamente otimistas demais. Essas pessoas muitas vezes desconhecem os desafios restantes que temos que resolver para alcançar a IA real. Minha palestra no TED de 2024 [15] resume um pouco disso. REFERÊNCIAS (fáceis de encontrar na web): [1] J. Schmidhuber. Tornando o mundo diferenciável: Sobre o uso de redes neurais auto-supervisionadas (NNs) totalmente recorrentes para aprendizado e planejamento de reforço dinâmico em ambientes não estacionários. TR FKI-126-90, TUM, fevereiro de 1990, revisado em novembro de 1990. Este artigo também introduziu a curiosidade artificial e a motivação intrínseca por meio de redes adversárias generativas, onde um NN gerador está lutando contra um NN preditor em um jogo minimax. [2] J. S. Uma possibilidade de implementar curiosidade e tédio em controladores neurais de construção de modelos. Em J. A. Meyer e S. W. Wilson, editores, Proc. da Conferência Internacional sobre Simulação de Comportamento Adaptativo: De Animais a Animados, páginas 222-227. MIT Press / Bradford Books, 1991. Com base em [1]. [3] Blog JS AI (2020). 1990: Planejamento e Aprendizagem por Reforço com Modelos de Mundo Recorrentes e Curiosidade Artificial. Resumindo aspectos de [1][2] e muitos artigos posteriores, incluindo [7][8]. [4] J.S. AI Blog (2021): Curiosidade e criatividade artificiais desde 1990. Resumindo aspectos de [1][2] e muitos artigos posteriores, incluindo [7][8]. [5] J.S. TU Munich CogBotLab para robôs de aprendizagem (2004-2009) [6] NNAISENSE, fundada em 2014, para IA no mundo físico [7] J.S. (2015). Sobre Aprender a Pensar: Teoria da Informação Algorítmica para Novas Combinações de Controladores de Aprendizado por Reforço (RL) e Modelos de Mundo Neural Recorrente. arXiv 1210.0118. A Seção 5.3 descreve um engenheiro de prompt de RL que aprende a consultar seu modelo para raciocínio abstrato, planejamento e tomada de decisão. Hoje isso é chamado de "cadeia de pensamento". [8] J.S. (2018). Uma grande rede para tudo. arXiv 1802.08864. Veja também US11853886B2 de patentes e meu tweet do DeepSeek: O DeepSeek usa elementos do engenheiro de prompt de aprendizado por reforço de 2015 [7] e seu refinamento de 2018 [8] que colapsa a máquina RL e o modelo de mundo de [7] em uma única rede. Isso usa meu procedimento de destilação de rede neural de 1991: um sistema de cadeia de pensamento destilado. [9] J.S. Turing sobrevendido. Não é culpa de Turing, no entanto. AI Blog (2021, foi #1 no Hacker News) [10] J.S. Intelligente Roboter werden vom Leben fasziniert sein. (Robôs inteligentes ficarão fascinados com a vida.) F.A.Z., 2015 [11] J.S. em Falling Walls: O Passado, Presente e Futuro da Inteligência Artificial. Scientific American, Observações, 2017. [12] J.S. KI ist eine Riesenchance für Deutschland. (A IA é uma grande chance para a Alemanha.) F.A.Z., 2018 [13] H. Jones. J.S. diz que o trabalho de sua vida não levará à distopia. Revista Forbes, 2023. [14] Entrevista com J.S. Jazzyear, Xangai, 2024. [15] J.S. TED talk no TED AI Vienna (2024): Por que 2042 será um grande ano para a IA. Veja o videoclipe em anexo. [16] J.S. Baut den KI-gesteuerten Allzweckroboter! (Construa o robô multiuso controlado por IA!) F.A.Z., 2024 [17] J.S. 1995-2025: O Declínio da Alemanha e Japão vs EUA e China. Os robôs multifuncionais podem alimentar um retorno? AI Blog, janeiro de 2025, baseado em [16]. [18] M. Alhakami, D. R. Ashley, J. Dunham, Y. Dai, F. Faccio, E. Feron, J. Schmidhuber. Rumo a um robô bebê extremamente robusto com rica capacidade de interação para algoritmos avançados de aprendizado de máquina. Pré-impressão arxiv 2404.08093, 2024.

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável