Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jürgen Schmidhuber
Princípios inventados de meta-aprendizagem (1987), GANs (1990), Transformers (1991), aprendizagem muito profunda (1991), etc. Nossa IA é usada muitos bilhões de vezes todos os dias.
Quem inventou as redes neurais convolucionais (CNNs)?
1969: Fukushima tinha ReLUs relevantes para a CNN [2].
1979: Fukushima tinha a arquitetura básica da CNN com camadas de convolução e camadas de downsampling [1]. A computação era 100 vezes mais cara do que em 1989 e um bilhão de vezes mais cara do que hoje.
1987: Waibel aplicou a retropropagação de Linnainmaa de 1970 [3] a TDNNs de compartilhamento de peso com convoluções unidimensionais [4].
1988: Wei Zhang et al. aplicaram CNNs bidimensionais "modernas" treinadas por backprop ao reconhecimento de caracteres [5].
Todos os itens acima foram publicados no Japão de 1979 a 1988.
1989: LeCun et al. aplicaram CNNs novamente ao reconhecimento de caracteres (códigos postais) [6,10].
1990-93: A redução da amostragem de Fukushima com base na média espacial [1] foi substituída por max-pooling para TDNNs 1-D (Yamaguchi et al.) [7] e CNNs 2-D (Weng et al.) [8].
2011: Muito mais tarde, minha equipe com Dan Ciresan fez o pooling máximo de CNNs muito rápido em GPUs NVIDIA. Em 2011, a DanNet alcançou o primeiro resultado de reconhecimento de padrões sobre-humanos [9]. Por um tempo, desfrutou de um monopólio: de maio de 2011 a setembro de 2012, a DanNet venceu todos os desafios de reconhecimento de imagem em que participou, 4 deles consecutivos. É certo, no entanto, que isso foi principalmente sobre engenharia e ampliação dos insights básicos do milênio anterior, lucrando com hardware muito mais rápido.
Alguns "especialistas em IA" afirmam que "fazer as CNNs funcionarem" (por exemplo, [5,6,9]) foi tão importante quanto inventá-las. Mas "fazê-los funcionar" dependia em grande parte de seu laboratório ser rico o suficiente para comprar os computadores mais recentes necessários para ampliar o trabalho original. É o mesmo que hoje. Pesquisa básica vs engenharia/desenvolvimento - o R vs o D em P&D.
REFERÊNCIAS
[1] K. Fukushima (1979). Modelo de rede neural para um mecanismo de reconhecimento de padrões não afetado pela mudança de posição - Neocognitron. IECE, vol. J62-A, nº 10, pp. 658-665, 1979.
[2] K. Fukushima (1969). Extração de recursos visuais por uma rede multicamadas de elementos de limiar analógicos. Transações IEEE em Ciência de Sistemas e Cibernética. 5 (4): 322-333. Este trabalho introduziu unidades lineares retificadas (ReLUs), agora usadas em muitas CNNs.
[3] S. Linnainmaa (1970). Tese de Mestrado, Univ. Helsinque, 1970. A primeira publicação sobre retropropagação "moderna", também conhecida como modo reverso de diferenciação automática. (Veja a conhecida visão geral da retropropagação de Schmidhuber: "Quem inventou a retropropagação?")
[4] A. Waibel. Reconhecimento de fonemas usando redes neurais de atraso de tempo. Reunião do IEICE, Tóquio, Japão, 1987. Retropropagação para um TDNN de compartilhamento de peso com convoluções 1-dimensionais.
[5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Rede neural de reconhecimento de padrões invariável de deslocamento e sua arquitetura óptica. Proc. Conferência Anual da Sociedade Japonesa de Física Aplicada, 1988. Primeira CNN bidimensional treinada em retropropagação, com aplicações para reconhecimento de caracteres em inglês.
[6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Retropropagação Aplicada ao Reconhecimento de Código Postal Manuscrito, Computação Neural, 1(4):541-551, 1989. Veja também a Seção 3 de [10].
[7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Uma rede neural para reconhecimento de palavras isoladas independentes do falante. Primeira Conferência Internacional sobre Processamento de Linguagem Falada (ICSLP 90), Kobe, Japão, novembro de 1990. Um TDNN convolucional de 1 dimensão usando Max-Pooling em vez da média espacial de Fukushima [1].
[8] Weng, J., Ahuja, N., e Huang, T. S. (1993). Aprendendo reconhecimento e segmentação de objetos 3D a partir de imagens 2D. Proc. 4ª Conferência Internacional de Visão Computacional, Berlim, pp. 121-128. Uma CNN bidimensional cujas camadas de downsampling usam Max-Pooling (que se tornou muito popular) em vez da Média Espacial de Fukushima [1].
[9] Em 2011, a CNN rápida e profunda baseada em GPU chamada DanNet (7+ camadas) alcançou o primeiro desempenho sobre-humano em um concurso de visão computacional. Veja a visão geral: "2011: DanNet desencadeia profunda revolução na CNN."
[10] Como 3 premiados com Turing republicaram métodos e ideias importantes cujos criadores eles não deram crédito. Relatório Técnico IDSIA-23-23, Swiss AI Lab IDSIA, 14 de dezembro de 2023. Veja também o vídeo do YouTube para a Cerimônia de Premiação Bower 2021: J. Schmidhuber elogia Kunihiko Fukushima.

346,78K
Quem inventou a retropropagação (BP)? Sua versão moderna (também chamada de modo reverso de diferenciação automática) foi publicada pela primeira vez em 1970 pelo estudante de mestrado finlandês Seppo Linnainmaa. Um precursor da BP foi publicado por Henry J. Kelley em 1960. A primeira aplicação específica de NN do BP foi descrita por Paul Werbos em 1982 (mas ainda não em sua tese de 1974, como às vezes é afirmado).
Alguns perguntam: "A retropropagação não é apenas a regra da cadeia de Leibniz (1676)?" Não, é a maneira eficiente de aplicar a regra da cadeia a grandes redes com nós diferenciáveis. (Existem também muitas maneiras ineficientes de fazer isso.) Não foi publicado até 1970.
Consulte a página da Web de visão geral da retropropagação com mais detalhes:
Veja também a "História Anotada da IA Moderna e Aprendizado Profundo" (2022):

34,51K
IA física há 10 anos: bebê robô inventa seus próprios experimentos para melhorar seu modelo de mundo neural
Kompella, Stollenga, Luciw, Schmidhuber. Aquisição contínua de habilidades impulsionadas pela curiosidade a partir de entradas de vídeo de alta dimensão para robôs humanóides. Inteligência Artificial, 2015

10,74K
1 década atrás: Engenheiro de Prompt de Aprendizado por Reforço na Seção 5.3 de «Aprendendo a Pensar ...» [2]. Cadeia Adaptativa de Pensamento! Uma rede RL aprende a consultar outra rede para raciocínio abstrato e tomada de decisão. Indo além do Modelo Mundial de 1990 para planejamento de milissegundos por milissegundos [1].
[2] J. Schmidhuber (JS, 2015). «Sobre Aprender a Pensar: Teoria da Informação Algorítmica para Novas Combinações de Controladores RL e Modelos de Mundo Neural Recorrentes.» ArXiv 1210.0118
[1] JS (1990). "Tornando o mundo diferenciável: sobre o uso de redes neurais auto-supervisionadas totalmente recorrentes para aprendizado e planejamento de reforço dinâmico em ambientes não estacionários.» TR FKI-126-90, TUM. (Este relatório também introduziu curiosidade artificial e motivação intrínseca por meio de redes adversárias generativas.)

23,93K
10 years ago, in May 2015, we published the first working very deep gradient-based feedforward neural networks (FNNs) with hundreds of layers (previous FNNs had a maximum of a few dozen layers). To overcome the vanishing gradient problem, our Highway Networks used the residual connections first introduced in 1991 by @HochreiterSepp to achieve constant error flow in recurrent NNs (RNNs), gated through multiplicative gates similar to the forget gates (Gers et al., 1999) of our very deep LSTM RNN. Highway NNs were made possible through the work of my former PhD students @rupspace and Klaus Greff. Setting the Highway NN gates to 1.0 effectively gives us the ResNet published 7 months later.
Deep learning is all about NN depth. LSTMs brought essentially unlimited depth to recurrent NNs; Highway Nets brought it to feedforward NNs.
20,76K
1991: primeira destilação de rede neural [1-3]. Eu chamei isso de "colapso", naquela época, não de "destilação".
Referências
[1] J. Schmidhuber (1991). Chunkers de sequência neural. Relatório Técnico FKI-148-91, Tech Univ. Munique. Seção 3.2.2. A Seção 4 trata de "colapsar" ou "destilar" ou "comprimir" o conhecimento de uma rede neural em outra rede neural.
[2] JS (1992). Aprendendo sequências complexas e estendidas usando o princípio da compressão da história. Computação Neural, 4(2):234-242, 1992. Com base em [1].
[3] JS (AI Blog, 2021, atualizado em 2025). 1991: Primeiro aprendizado muito profundo com pré-treinamento não supervisionado. Primeira destilação de rede neural.

16,24K
Todo mundo fala sobre auto-aperfeiçoamento recursivo e Máquinas de Gödel agora e como isso levará à AGI. Que mudança em relação a 15 anos atrás! Tivemos o AGI'2010 em Lugano e presidimos o AGI'2011 no Google. A espinha dorsal das conferências da AGI foi a IA Universal matematicamente ótima: a Máquina Gödel de 2003 (e o AIXI de @mhutter42 - veja seu livro UAI de 2005 e sua recente atualização de 2024 (Estou orgulhoso de que o trabalho AIXI de Marcus Hutter tenha sido financiado por minha bolsa SNF suíça de 2000 quando ele era um pós-doutorado na IDSIA.

57,23K
AGI? Um dia, mas ainda não. A única IA que funciona bem agora é a que está atrás da tela [12-17]. Mas passar no Teste de Turing [9] atrás de uma tela é fácil em comparação com a IA real para robôs reais no mundo real. Nenhum robô atual acionado por IA poderia ser certificado como encanador [13-17]. Portanto, o Teste de Turing não é uma boa medida de inteligência (e nem o QI). E AGI sem domínio do mundo físico não é AGI. É por isso que criei o TUM CogBotLab para robôs de aprendizagem em 2004 [5], cofundei uma empresa de IA no mundo físico em 2014 [6] e tive equipes na TUM, IDSIA e agora KAUST trabalhando em robôs bebês [4,10-11,18]. Esses robôs macios não apenas imitam os humanos servilmente e não funcionam apenas baixando a web como LLMs / VLMs. Não. Em vez disso, eles exploram os princípios da Curiosidade Artificial para melhorar seus Modelos de Mundo neurais (dois termos que usei em 1990 [1-4]). Esses robôs trabalham com muitos sensores, mas apenas atuadores fracos, de modo que não podem se machucar facilmente [18] quando coletam dados úteis ao criar e executar seus próprios experimentos auto-inventados.
Notavelmente, desde a década de 1970, muitos zombaram do meu antigo objetivo de construir uma AGI auto-aperfeiçoada mais inteligente do que eu e depois me aposentar. Recentemente, no entanto, muitos finalmente começaram a levar isso a sério, e agora alguns deles estão repentinamente otimistas demais. Essas pessoas muitas vezes desconhecem os desafios restantes que temos que resolver para alcançar a IA real. Minha palestra no TED de 2024 [15] resume um pouco disso.
REFERÊNCIAS (fáceis de encontrar na web):
[1] J. Schmidhuber. Tornando o mundo diferenciável: Sobre o uso de redes neurais auto-supervisionadas (NNs) totalmente recorrentes para aprendizado e planejamento de reforço dinâmico em ambientes não estacionários. TR FKI-126-90, TUM, fevereiro de 1990, revisado em novembro de 1990. Este artigo também introduziu a curiosidade artificial e a motivação intrínseca por meio de redes adversárias generativas, onde um NN gerador está lutando contra um NN preditor em um jogo minimax.
[2] J. S. Uma possibilidade de implementar curiosidade e tédio em controladores neurais de construção de modelos. Em J. A. Meyer e S. W. Wilson, editores, Proc. da Conferência Internacional sobre Simulação de Comportamento Adaptativo: De Animais a Animados, páginas 222-227. MIT Press / Bradford Books, 1991. Com base em [1].
[3] Blog JS AI (2020). 1990: Planejamento e Aprendizagem por Reforço com Modelos de Mundo Recorrentes e Curiosidade Artificial. Resumindo aspectos de [1][2] e muitos artigos posteriores, incluindo [7][8].
[4] J.S. AI Blog (2021): Curiosidade e criatividade artificiais desde 1990. Resumindo aspectos de [1][2] e muitos artigos posteriores, incluindo [7][8].
[5] J.S. TU Munich CogBotLab para robôs de aprendizagem (2004-2009)
[6] NNAISENSE, fundada em 2014, para IA no mundo físico
[7] J.S. (2015). Sobre Aprender a Pensar: Teoria da Informação Algorítmica para Novas Combinações de Controladores de Aprendizado por Reforço (RL) e Modelos de Mundo Neural Recorrente. arXiv 1210.0118. A Seção 5.3 descreve um engenheiro de prompt de RL que aprende a consultar seu modelo para raciocínio abstrato, planejamento e tomada de decisão. Hoje isso é chamado de "cadeia de pensamento".
[8] J.S. (2018). Uma grande rede para tudo. arXiv 1802.08864. Veja também US11853886B2 de patentes e meu tweet do DeepSeek: O DeepSeek usa elementos do engenheiro de prompt de aprendizado por reforço de 2015 [7] e seu refinamento de 2018 [8] que colapsa a máquina RL e o modelo de mundo de [7] em uma única rede. Isso usa meu procedimento de destilação de rede neural de 1991: um sistema de cadeia de pensamento destilado.
[9] J.S. Turing sobrevendido. Não é culpa de Turing, no entanto. AI Blog (2021, foi #1 no Hacker News)
[10] J.S. Intelligente Roboter werden vom Leben fasziniert sein. (Robôs inteligentes ficarão fascinados com a vida.) F.A.Z., 2015
[11] J.S. em Falling Walls: O Passado, Presente e Futuro da Inteligência Artificial. Scientific American, Observações, 2017.
[12] J.S. KI ist eine Riesenchance für Deutschland. (A IA é uma grande chance para a Alemanha.) F.A.Z., 2018
[13] H. Jones. J.S. diz que o trabalho de sua vida não levará à distopia. Revista Forbes, 2023.
[14] Entrevista com J.S. Jazzyear, Xangai, 2024.
[15] J.S. TED talk no TED AI Vienna (2024): Por que 2042 será um grande ano para a IA. Veja o videoclipe em anexo.
[16] J.S. Baut den KI-gesteuerten Allzweckroboter! (Construa o robô multiuso controlado por IA!) F.A.Z., 2024
[17] J.S. 1995-2025: O Declínio da Alemanha e Japão vs EUA e China. Os robôs multifuncionais podem alimentar um retorno? AI Blog, janeiro de 2025, baseado em [16].
[18] M. Alhakami, D. R. Ashley, J. Dunham, Y. Dai, F. Faccio, E. Feron, J. Schmidhuber. Rumo a um robô bebê extremamente robusto com rica capacidade de interação para algoritmos avançados de aprendizado de máquina. Pré-impressão arxiv 2404.08093, 2024.
67,26K
Melhores
Classificação
Favoritos
Em alta on-chain
Em alta no X
Principais fundos da atualidade
Mais notável