O conhecido blogueiro de podcast Dwarkesh Patel recentemente deu uma entrevista com AK, e aqui está como ele a descreveu: Para mim, a parte mais interessante foi Andrej Karpathy (um especialista em IA frequentemente chamado de "Kashen") explicando por que grandes modelos de linguagem (LLMs) não podem aprender como humanos. Com certeza, Kashen cunhou uma palavra particularmente vívida para descrever o Aprendizado por Reforço (RL): "Absorva dados supervisionados com um canudo". O que isto significa? Ou seja, em uma tentativa bem-sucedida (como a IA vencendo um jogo de xadrez), a recompensa final por "vencer" será distribuída igualmente a cada passo que der e a cada palavra gerar. Mesmo que algumas das etapas no meio estejam erradas ou irrelevantes, desde que o resultado final esteja correto, todas essas etapas serão "adicionadas" pelo algoritmo. > "Eu já disse antes que os humanos não usam aprendizado por reforço. Acho que os humanos aprendem de maneira completamente diferente. O aprendizado por reforço é muito pior do que a pessoa média pensa. O aprendizado intensivo é uma. É só que os outros algoritmos que tínhamos antes eram muito piores do que isso. ” Então, como os humanos aprendem? > "Eu li um livro que para mim é um conjunto de 'prompts' para me tornar 'geração de dados sintéticos' na minha cabeça. Você tem que trabalhar com essas informações de forma proativa para realmente obter conhecimento. No entanto, os modelos de linguagem grande (LLMs) não têm um mecanismo correspondente; Eles realmente não fazem isso. ” > "Eu adoraria ver um link na fase de pré-treinamento do modelo, onde o modelo pode 'ponderar' o que lê e tentar 'combinar' com o que já sabe. Agora não existe tal mecanismo. Isso ainda está em fase de pesquisa. ” Então, por que não podemos adicionar esse tipo de treinamento de "pensamento" a grandes modelos de linguagem agora? > "Existem razões muito sutis e incompreensíveis para isso, o que torna não tão simples. Se eu pedir ao modelo para 'pensar' em um livro e gerar alguns dados sintéticos, à primeira vista você pensa: 'Isso parece ótimo!' Por que você não pode usá-lo para treinar? Você pode tentar, mas se continuar fazendo isso, o modelo terá um desempenho pior. ” > "Digamos que pegamos um capítulo de um livro e peço a um grande modelo de linguagem para 'pensar'. Isso lhe dará um parágrafo que parece muito razoável. Mas se eu pedir para responder 10 vezes, você verá que as respostas são quase idênticas nessas 10 vezes. ” > "Você não obtém a riqueza, a diversidade e a 'entropia' do pensamento humano desses modelos (neste caso, o caos e a criatividade do pensamento). Você não pode ter todos os tipos de ideias malucas como uma pessoa. Então, como os dados sintéticos podem funcionar e manter essa 'entropia' quando o modelo tende a 'colapso' (o que significa que a resposta se torna única e carece de diversidade)? Este ainda é um problema de pesquisa. ” Então, como os humanos evitam esse "colapso do pensamento"? > A ideia (de analogia entre pessoas e modelos) é surpreendentemente boa. Em suas próprias vidas, os seres humanos realmente "entrarão em colapso". As crianças ainda não se "sobreajustaram" (referindo-se ao pensamento rígido e apenas se adaptando a certos padrões). Eles dirão algo que o choca. Isso porque eles ainda não 'entraram em colapso'. Mas nós, adultos, 'entramos em colapso'. Acabamos pensando a mesma coisa repetidamente, o que dizemos se torna cada vez mais convergente, nossa taxa de aprendizado diminui, o 'colapso' fica cada vez pior e, finalmente, tudo se degrada. ” De fato, um artigo interessante ("The Overfitted Brain", de Erik Hoel) sugere que a evolução da função do sonho humano é para nos ajudar a melhorar nossa "generalização" (a capacidade de fazer inferências) e resistir ao "sobreajuste" provocado pelo aprendizado diário. ...