Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Je voulais mieux comprendre comment le RL fonctionne sur les LLMs.
Alors j'ai écrit un script simple pour apprendre à Nanochat à additionner des nombres à 5 chiffres.
J'ai été surpris de la rapidité avec laquelle il a appris.
Jusqu'à ce que je regarde les générations du modèle et que je réalise qu'il avait juste appris à toujours appeler l'interpréteur Python intégré 😂.
Le code que j'ai écrit est très basique, minimal et inefficace - je suis un podcasteur professionnel, d'accord ?
Mais cela pourrait être utile si vous voulez juste voir les bases de comment REINFORCE ou GRPO fonctionnent. Lien vers le gist ci-dessous.
Fondamentalement, ce n'est pas si compliqué : générez plusieurs trajectoires par prompt. Mettez à jour votre modèle pour qu'il soit plus probable qu'il échantillonne tous les tokens dans les trajectoires réussies.


Andrej Karpathy13 oct., 23:16
Excité de publier un nouveau dépôt : nanochat !
(c'est parmi les plus débridés que j'ai écrits).
Contrairement à mon précédent dépôt similaire nanoGPT qui ne couvrait que le pré-entraînement, nanochat est un pipeline d'entraînement/inférence complet, minimal et de bout en bout d'un simple clone de ChatGPT dans une base de code unique et minimale en dépendances. Vous démarrez une boîte GPU dans le cloud, exécutez un seul script et en aussi peu que 4 heures plus tard, vous pouvez parler à votre propre LLM dans une interface web similaire à ChatGPT.
Il pèse environ 8 000 lignes de code que je trouve plutôt propre pour :
- Entraîner le tokenizer en utilisant une nouvelle implémentation en Rust
- Préformer un LLM Transformer sur FineWeb, évaluer le score CORE sur un certain nombre de métriques
- Entraîner à mi-parcours sur des conversations utilisateur-assistant de SmolTalk, des questions à choix multiples, l'utilisation d'outils.
- SFT, évaluer le modèle de chat sur des questions à choix multiples de culture générale (ARC-E/C, MMLU), mathématiques (GSM8K), code (HumanEval)
- RL le modèle en option sur GSM8K avec "GRPO"
- Inférence efficace du modèle dans un moteur avec cache KV, pré-remplissage/décodage simple, utilisation d'outils (interpréteur Python dans un bac à sable léger), communiquer avec lui via CLI ou WebUI similaire à ChatGPT.
- Rédiger un seul rapport markdown, résumant et ludifiant l'ensemble.
Même pour aussi peu que ~100 $ de coût (~4 heures sur un nœud 8XH100), vous pouvez entraîner un petit clone de ChatGPT avec lequel vous pouvez un peu discuter, et qui peut écrire des histoires/poèmes, répondre à des questions simples. Environ ~12 heures dépassent la métrique CORE de GPT-2. En augmentant davantage jusqu'à ~1000 $ (~41,6 heures d'entraînement), il devient rapidement beaucoup plus cohérent et peut résoudre des problèmes simples de mathématiques/code et passer des tests à choix multiples. Par exemple, un modèle de profondeur 30 entraîné pendant 24 heures (ce qui équivaut à peu près aux FLOPs de GPT-3 Small 125M et 1/1000 de GPT-3) atteint des scores dans les 40 sur MMLU et 70 sur ARC-Easy, 20 sur GSM8K, etc.
Mon objectif est d'obtenir l'ensemble du "strong baseline" dans un dépôt cohérent, minimal, lisible, hackable et maximement forkable. nanochat sera le projet phare de LLM101n (qui est encore en développement). Je pense qu'il a également le potentiel de devenir un cadre de recherche ou un benchmark, similaire à nanoGPT avant lui. Ce n'est en aucun cas fini, réglé ou optimisé (en fait, je pense qu'il y a probablement pas mal de fruits à portée de main), mais je pense qu'il est à un endroit où le squelette global est suffisamment correct pour qu'il puisse être mis sur GitHub où toutes ses parties peuvent être améliorées.
Le lien vers le dépôt et un guide détaillé du speedrun de nanochat se trouvent dans la réponse.

16,55K
.@karpathy dit que les LLM manquent actuellement de l'accumulation culturelle et du jeu autonome qui ont propulsé les humains hors de la savane :
Culture : > « Pourquoi un LLM ne peut-il pas écrire un livre pour les autres LLM ? Pourquoi d'autres LLM ne peuvent-ils pas lire le livre de ce LLM et en être inspirés, ou choqués ? »
Jeu autonome : > « C'est extrêmement puissant. L'évolution a beaucoup de compétition qui stimule l'intelligence et l'évolution. AlphaGo joue contre lui-même et c'est ainsi qu'il apprend à devenir vraiment bon au Go. Il n'y a pas d'équivalent du jeu autonome dans les LLM. Pourquoi un LLM, par exemple, ne peut-il pas créer un tas de problèmes qu'un autre LLM apprend à résoudre ? Alors le LLM essaie toujours de servir des problèmes de plus en plus difficiles. »
J'ai demandé à Karpathy pourquoi les LLM ne sont toujours pas capables de construire une culture comme le font les humains.
> « Les modèles les plus simples ressemblent remarquablement à un élève de maternelle. [Les modèles les plus intelligents semblent encore comme] des élèves de l'école élémentaire. D'une manière ou d'une autre, nous n'avons pas encore assez gradué pour que [ces modèles] puissent prendre le relais. Mon Claude Code ou Codex, ils semblent toujours comme cet élève de niveau élémentaire. Je sais qu'ils peuvent passer des quiz de doctorat, mais ils se sentent toujours cognitivement comme un élève de maternelle. »
> « Je ne pense pas qu'ils puissent créer de la culture parce qu'ils sont encore des enfants. Ce sont des enfants prodiges. Ils ont une mémoire parfaite. Ils peuvent créer de manière convaincante toutes sortes de choses qui semblent vraiment bonnes. Mais je pense toujours qu'ils ne savent pas vraiment ce qu'ils font. Ils n'ont pas vraiment la cognition à travers toutes ces petites cases que nous devons encore collecter. »

Dwarkesh Patel18 oct., 01:16
L'interview de @karpathy
0:00:00 – L'AGI est encore à une décennie
0:30:33 – Déficits cognitifs des LLM
0:40:53 – L'apprentissage par renforcement est terrible
0:50:26 – Comment les humains apprennent-ils ?
1:07:13 – L'AGI se fondra dans une croissance du PIB de 2%
1:18:24 – ASI
1:33:38 – Évolution de l'intelligence et de la culture
1:43:43 - Pourquoi la conduite autonome a-t-elle pris tant de temps
1:57:08 - L'avenir de l'éducation
Recherchez le podcast Dwarkesh sur YouTube, Apple Podcasts, Spotify, etc. Profitez-en !
56,86K
Meilleurs
Classement
Favoris