Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Então ele está dizendo que os cães sonham em evitar o overfitting? Porque eu sei que meus cães perseguem coelhos durante o sono.
Suponho que você poderia generalizar o conceito, mas como apresentado, não é convincente

18 de out., 02:51
A parte mais interessante para mim é onde @karpathy descreve por que os LLMs não são capazes de aprender como os humanos.
Como seria de esperar, ele vem com uma frase maravilhosamente evocativa para descrever RL: "sugando pedaços de supervisão através de um canudo".
Uma única recompensa final é transmitida por cada token em uma trajetória de sucesso, aumentando até mesmo as curvas erradas ou irrelevantes que levam à resposta certa.
> "Os humanos não usam aprendizado por reforço, como eu disse antes. Eu acho que eles fazem algo diferente. O aprendizado por reforço é muito pior do que a pessoa média pensa. O aprendizado por reforço é terrível. Acontece que tudo o que tínhamos antes é muito pior."
Então, o que os humanos fazem em vez disso?
> "O livro que estou lendo é um conjunto de instruções para eu fazer a geração de dados sintéticos. É manipulando essa informação que você realmente ganha esse conhecimento. Não temos equivalente a isso com LLMs; eles realmente não fazem isso."
> "Eu adoraria ver durante o pré-treinamento algum tipo de estágio em que o modelo pense no material e tente reconciliá-lo com o que já sabe. Não há equivalente a nada disso. Isso tudo é pesquisa."
Por que não podemos simplesmente adicionar esse treinamento aos LLMs hoje?
> "Existem razões muito sutis e difíceis de entender pelas quais não é trivial. Se eu apenas der uma geração sintética do modelo pensando em um livro, você olha para ele e pensa: 'Isso parece ótimo. Por que não posso treinar nele?' Você pode tentar, mas o modelo vai ficar muito pior se você continuar tentando."
> "Digamos que temos um capítulo de um livro e peço a um LLM que pense sobre isso. Isso lhe dará algo que parece muito razoável. Mas se eu perguntar 10 vezes, você notará que todos eles são iguais.
> "Você não está obtendo a riqueza, a diversidade e a entropia desses modelos como obteria dos humanos. Como você faz com que a geração de dados sintéticos funcione apesar do colapso e mantendo a entropia? É um problema de pesquisa."
Como os humanos contornam o colapso do modelo?
> "Essas analogias são surpreendentemente boas. Os humanos entram em colapso durante o curso de suas vidas. As crianças ainda não se sobreajustaram. Eles vão dizer coisas que vão chocar você. Porque eles ainda não estão colapsados. Mas nós [adultos] estamos em colapso. Acabamos revisitando os mesmos pensamentos, acabamos dizendo mais e mais das mesmas coisas, as taxas de aprendizado caem, o colapso continua a piorar e então tudo se deteriora."
Na verdade, há um artigo interessante argumentando que o sonho evoluiu para auxiliar a generalização e resistir ao sobreajuste ao aprendizado diário - procure The Overfitted Brain por @erikphoel.
Perguntei a Karpathy: Não é interessante que os humanos aprendam melhor em uma parte de suas vidas (infância) cujos detalhes reais eles esquecem completamente, os adultos ainda aprendem muito bem, mas têm uma memória terrível sobre as particularidades das coisas que lêem ou assistem, e os LLMs podem memorizar detalhes arbitrários sobre o texto que nenhum humano poderia, mas atualmente são muito ruins em generalização?
> "[A memória humana falível] é um recurso, não um bug, porque força você a aprender apenas os componentes generalizáveis. Os LLMs são distraídos por toda a memória que têm dos documentos pré-treinados. É por isso que quando falo sobre o núcleo cognitivo, eu realmente quero remover a memória. Eu adoraria que eles tivessem menos memória para que tivessem que procurar as coisas e mantivessem apenas os algoritmos para o pensamento, e a ideia de um experimento, e toda essa cola cognitiva para agir.
@karpathy está sobreajustado
386
Melhores
Classificação
Favoritos