Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La partie la plus intéressante pour moi est celle où @karpathy décrit pourquoi les LLM ne peuvent pas apprendre comme les humains.
Comme vous pouvez vous y attendre, il propose une phrase merveilleusement évocatrice pour décrire l'apprentissage par renforcement : « aspirer des bits de supervision à travers une paille. »
Une seule récompense finale est diffusée à travers chaque token dans une trajectoire réussie, augmentant même les tournures erronées ou non pertinentes qui mènent à la bonne réponse.
> « Les humains n'utilisent pas l'apprentissage par renforcement, comme je l'ai dit auparavant. Je pense qu'ils font quelque chose de différent. L'apprentissage par renforcement est beaucoup pire que ce que la personne moyenne pense. L'apprentissage par renforcement est terrible. Il se trouve juste que tout ce que nous avions avant est bien pire. »
Alors, que font les humains à la place ?
> « Le livre que je lis est un ensemble de prompts pour que je fasse de la génération de données synthétiques. C'est en manipulant cette information que vous acquérez réellement cette connaissance. Nous n'avons pas d'équivalent de cela avec les LLM ; ils ne font pas vraiment ça. »
> « J'aimerais voir pendant le pré-entraînement une sorte d'étape où le modèle réfléchit au matériel et essaie de le réconcilier avec ce qu'il sait déjà. Il n'y a pas d'équivalent à tout cela. Tout cela est de la recherche. »
Pourquoi ne pouvons-nous pas simplement ajouter cet entraînement aux LLM aujourd'hui ?
> « Il y a des raisons très subtiles et difficiles à comprendre pour lesquelles ce n'est pas trivial. Si je donne juste une génération synthétique du modèle réfléchissant à un livre, vous le regardez et vous vous dites : 'Cela a l'air génial. Pourquoi ne puis-je pas m'entraîner dessus ?' Vous pourriez essayer, mais le modèle deviendra en fait beaucoup pire si vous continuez à essayer. »
> « Disons que nous avons un chapitre d'un livre et que je demande à un LLM d'y réfléchir. Il vous donnera quelque chose qui semble très raisonnable. Mais si je lui demande 10 fois, vous remarquerez que tous sont les mêmes. »
> « Vous ne obtenez pas la richesse, la diversité et l'entropie de ces modèles comme vous le feriez avec des humains. Comment faire fonctionner la génération de données synthétiques malgré l'effondrement tout en maintenant l'entropie ? C'est un problème de recherche. »
Comment les humains contournent-ils l'effondrement du modèle ?
> « Ces analogies sont étonnamment bonnes. Les humains s'effondrent au cours de leur vie. Les enfants n'ont pas encore surajusté. Ils diront des choses qui vous choqueront. Parce qu'ils ne sont pas encore effondrés. Mais nous [adultes] sommes effondrés. Nous finissons par revisiter les mêmes pensées, nous finissons par dire de plus en plus les mêmes choses, les taux d'apprentissage diminuent, l'effondrement continue de s'aggraver, et puis tout se détériore. »
En fait, il y a un article intéressant soutenant que le rêve a évolué pour aider à la généralisation et résister au surajustement à l'apprentissage quotidien - consultez The Overfitted Brain par @erikphoel.
J'ai demandé à Karpathy : N'est-il pas intéressant que les humains apprennent le mieux à une période de leur vie (l'enfance) dont ils oublient complètement les détails réels, que les adultes apprennent encore très bien mais ont une mémoire terrible concernant les détails des choses qu'ils lisent ou regardent, et que les LLM peuvent mémoriser des détails arbitraires sur des textes que aucun humain ne pourrait mais sont actuellement assez mauvais en généralisation ?
...
Meilleurs
Classement
Favoris