Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Então ele está dizendo que os cães sonham para evitar o overfitting? Porque eu sei que os meus cães perseguem coelhos enquanto dormem.
Suponho que você poderia generalizar o conceito, mas como apresentado, não é convincente.

18/10, 02:51
A parte mais interessante para mim é onde @karpathy descreve por que os LLMs não conseguem aprender como os humanos.
Como você esperaria, ele apresenta uma frase maravilhosamente evocativa para descrever o RL: “sugar bits de supervisão através de um canudo.”
Uma única recompensa final é transmitida por cada token em uma trajetória bem-sucedida, aumentando até mesmo as decisões erradas ou irrelevantes que levam à resposta certa.
> “Os humanos não usam aprendizado por reforço, como já disse antes. Acho que eles fazem algo diferente. O aprendizado por reforço é muito pior do que a média das pessoas pensa. O aprendizado por reforço é terrível. Acontece que tudo que tínhamos antes é muito pior.”
Então, o que os humanos fazem em vez disso?
> “O livro que estou lendo é um conjunto de prompts para eu fazer geração de dados sintéticos. É manipulando essa informação que você realmente ganha esse conhecimento. Não temos equivalente a isso com os LLMs; eles não fazem isso de verdade.”
> “Eu adoraria ver durante o pré-treinamento algum tipo de estágio onde o modelo pensa sobre o material e tenta reconciliá-lo com o que já sabe. Não há equivalente a nada disso. Tudo isso é pesquisa.”
Por que não podemos apenas adicionar esse treinamento aos LLMs hoje?
> “Existem razões muito sutis e difíceis de entender por que não é trivial. Se eu apenas der geração sintética do modelo pensando sobre um livro, você olha e diz: 'Isso parece ótimo. Por que não posso treinar com isso?' Você poderia tentar, mas o modelo na verdade ficará muito pior se você continuar tentando.”
> “Digamos que temos um capítulo de um livro e eu peço a um LLM para pensar sobre isso. Ele lhe dará algo que parece muito razoável. Mas se eu perguntar 10 vezes, você notará que todos são iguais.”
> “Você não está obtendo a riqueza, a diversidade e a entropia desses modelos como obteria dos humanos. Como você faz a geração de dados sintéticos funcionar apesar do colapso e enquanto mantém a entropia? É um problema de pesquisa.”
Como os humanos contornam o colapso do modelo?
> “Essas analogias são surpreendentemente boas. Os humanos colapsam ao longo de suas vidas. As crianças ainda não se ajustaram demais. Elas dirão coisas que vão te chocar. Porque elas ainda não estão colapsadas. Mas nós [adultos] estamos colapsados. Acabamos revisitanto os mesmos pensamentos, acabamos dizendo cada vez mais as mesmas coisas, as taxas de aprendizado diminuem, o colapso continua a piorar, e então tudo se deteriora.”
Na verdade, há um artigo interessante que argumenta que sonhar evoluiu para ajudar na generalização e resistir ao sobreajuste ao aprendizado diário - procure por The Overfitted Brain de @erikphoel.
Eu perguntei a Karpathy: Não é interessante que os humanos aprendem melhor em uma parte de suas vidas (infância) cujos detalhes reais eles esquecem completamente, os adultos ainda aprendem muito bem, mas têm uma memória terrível sobre os pormenores das coisas que leem ou assistem, e os LLMs podem memorizar detalhes arbitrários sobre textos que nenhum humano poderia, mas atualmente são bastante ruins em generalização?
> “[A memória falível humana] é uma característica, não um bug, porque força você a aprender apenas os componentes generalizáveis. Os LLMs são distraídos por toda a memória que têm dos documentos pré-treinados. É por isso que quando falo sobre o núcleo cognitivo, na verdade quero remover a memória. Eu adoraria que eles tivessem menos memória para que tivessem que procurar as coisas e mantivessem apenas os algoritmos para o pensamento, e a ideia de um experimento, e toda essa cola cognitiva para agir.
@karpathy está a sobreajustar
392
Top
Classificação
Favoritos