Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

AI进化论-花生
Andrej Karpathy a proposé une idée très radicale : toutes les entrées des LLM devraient être des images, y compris le texte pur.
Que signifie cela ?
Modèle de langage traditionnel : texte → tokenizer → LLM → sortie
La vision d'Andrej : texte → rendu en image → LLM → sortie
Même si ce que vous devez entrer est du texte pur, il faut d'abord le rendre en image, puis le donner au modèle.
Pourquoi faire cela ?
Il a donné 4 raisons :
1. Compression d'information plus efficace
C'est exactement ce que DeepSeek-OCR a prouvé. Une page de document, de manière traditionnelle, pourrait nécessiter 2000 tokens de texte, alors qu'avec des tokens d'image, il n'en faut que 64. Taux de compression de 30 fois.
Les tokens de texte sont très gaspillés, les tokens d'image sont plus denses.
2. Plus universel
Les tokens de texte ne peuvent exprimer que des mots. Mais l'information dans le monde réel n'est pas seulement des mots :
- Gras, italique
- Texte coloré
- Tableaux, graphiques
- Images quelconques
Tout rendu en image en entrée, le modèle peut naturellement traiter cela.
3. Peut utiliser l'attention bidirectionnelle
Ce sont des détails techniques. Le texte à texte traditionnel est autorégressif (de gauche à droite). L'entrée d'image peut utiliser l'attention bidirectionnelle, voir l'information globale, plus puissant.
4. Supprimer le tokenizer (point clé !)
Andrej déteste le tokenizer.
Ses critiques :
- Le tokenizer est une étape laide, indépendante et non end-to-end
- Il hérite de tous les fardeaux historiques de l'Unicode et de l'encodage des octets
- Il y a des risques de sécurité (comme les attaques par bytes de continuation)
- Deux caractères qui semblent identiques peuvent être complètement différents aux yeux du tokenizer
- 😊 Cet emoji dans le tokenizer n'est qu'un token étrange, pas une véritable image de sourire
Il espère que le tokenizer disparaisse.
Quelle est sa vision ?
- Entrée : tout est image (même si c'est à l'origine du texte)
- Sortie : reste du texte (car sortir des pixels n'est pas réaliste)
L'OCR n'est qu'une des tâches vision→texte. Beaucoup de tâches texte→texte peuvent devenir vision→texte.
Mon interprétation
Le point de vue d'Andrej est très radical, mais il a effectivement du sens.
D'un point de vue théorique de l'information, l'image est effectivement plus efficace que le texte. DeepSeek-OCR l'a prouvé : 64 tokens d'image peuvent exprimer l'information de 2000 tokens de texte.
D'un point de vue d'universalité, l'entrée d'image prend en charge naturellement divers formats (gras, couleur, graphiques), sans avoir besoin de ce niveau intermédiaire qu'est le tokenizer.
Mais le problème est :
1. Coût de calcul : traiter des tokens d'image est plus coûteux que des tokens de texte. Bien que le nombre de tokens soit réduit, chaque token d'image nécessite plus de calcul.
2. Données d'entraînement : la plupart des données d'entraînement existantes sont du texte pur. Tout rendre en image coûte très cher.
3. Problème de sortie : il admet aussi que sortir des pixels n'est pas réaliste. Donc, cela ne peut être qu'un mode mixte d'entrée d'image → sortie de texte.
Mais à long terme, cette direction pourrait être la bonne.
Surtout en considérant :
- L'entrée humaine est naturellement multimodale (texte, images, vidéos)
- Le tokenizer a effectivement beaucoup de problèmes (sécurité, Unicode, fardeaux historiques)
- L'IA du futur devrait pouvoir comprendre directement les pixels, plutôt que de tout transformer en tokens
DeepSeek-OCR n'est peut-être que le début. Il a prouvé que "la compression optique contextuelle" est réalisable.
Andrej voit un avenir plus lointain : un monde sans tokenizer, où toutes les entrées sont des images et toutes les sorties sont du texte.
Cela deviendra-t-il réalité ? Je ne sais pas.
Mais au moins, cette direction mérite d'être explorée.

Andrej Karpathy21 oct., 06:13
J'aime beaucoup le nouveau papier DeepSeek-OCR. C'est un bon modèle OCR (peut-être un peu moins bon que dots), et oui, la collecte de données, etc., mais de toute façon, cela n'a pas d'importance.
La partie qui m'intéresse le plus (surtout en tant que passionné de vision par ordinateur qui se fait temporairement passer pour une personne de traitement du langage naturel) est de savoir si les pixels sont de meilleurs inputs pour les LLM que le texte. Si les tokens de texte sont gaspillés et juste terribles, à l'entrée.
Peut-être qu'il est plus logique que tous les inputs aux LLM ne devraient être que des images. Même si vous avez un input de texte pur, peut-être que vous préféreriez le rendre et ensuite l'alimenter :
- compression d'information plus importante (voir le papier) => fenêtres de contexte plus courtes, plus d'efficacité
- flux d'information général significativement plus important => pas seulement du texte, mais par exemple du texte en gras, du texte coloré, des images arbitraires.
- l'input peut maintenant être traité avec une attention bidirectionnelle facilement et par défaut, pas d'attention autoregressive - beaucoup plus puissant.
- supprimer le tokenizer (à l'entrée) !! J'ai déjà râlé sur combien je n'aime pas le tokenizer. Les tokenizers sont laids, séparés, pas une étape de bout en bout. Il "importe" toute la laideur de l'Unicode, des encodages de bytes, il hérite d'un lourd bagage historique, risque de sécurité/jailbreak (par exemple, les bytes de continuation). Il fait en sorte que deux caractères qui semblent identiques à l'œil apparaissent comme deux tokens complètement différents en interne dans le réseau. Un emoji souriant ressemble à un token étrange, pas à un... véritable visage souriant, pixels et tout, et tout l'apprentissage par transfert que cela implique. Le tokenizer doit disparaître.
L'OCR n'est qu'une des nombreuses tâches utiles de vision -> texte. Et les tâches texte -> texte peuvent être transformées en tâches vision -> texte. Pas l'inverse.
Donc, beaucoup de messages utilisateurs sont des images, mais le décodeur (la réponse de l'Assistant) reste du texte. C'est beaucoup moins évident comment sortir des pixels de manière réaliste... ou si vous le voudriez.
Maintenant, je dois aussi lutter contre l'envie de faire un version de nanochat uniquement avec input d'image...
91,96K
Claude Code est le meilleur agent d'écriture automatisée.
Cet article de plus de 3000 mots a été entièrement réalisé avec l'aide de Claude Code, il a bien performé sur Xiaohongshu et a suscité beaucoup de discussions, mais il semble qu'aucune personne ne doute que cet article a été écrit par une IA.
Je partagerai plus tard dans la section des commentaires ma méthode de construction d'agent d'écriture.

109,47K
À l'ère de l'IA, ne sous-estimez jamais la créativité qu'une personne peut avoir. Beaucoup de choses que vous ne pouviez pas réaliser il y a quelques mois, vous pourriez les essayer à nouveau maintenant et cela pourrait être complètement différent.
Il y a six mois, j'ai essayé de développer un jeu de tir 3D sur le thème militaire avec Cursor et Unity, sans jamais avoir utilisé Unity ni fait de développement de jeux auparavant.
Le plus grand obstacle à l'époque était les actifs 3D. Les modèles de véhicules blindés générés par divers outils 3D AI disponibles sur le marché étaient essentiellement une bouillie indémontable, il était impossible de créer des animations et des effets de dommages indépendants pour la tourelle et les chenilles, le projet était complètement bloqué. Je pensais que c'était fichu, jusqu'à ce que je découvre récemment @DeemosTech.
Ils ont lancé leur nouveau Rodin Gen-2 avec une architecture appelée BANG, c'est tout simplement incroyable, il peut comprendre que les modèles sont composés de différentes pièces et peut décomposer n'importe quel modèle 3D selon une logique raisonnable, comme les véhicules blindés, les hélicoptères, les soldats, etc. dans ma vidéo.
Dans ce cas, je peux obtenir des tourelles, des roues, etc. indépendantes, que je peux directement utiliser pour l'animation et la configuration des paramètres, ce qui résout pratiquement tous les problèmes que j'avais rencontrés la dernière fois.
Je réalise soudainement qu'il ne s'est écoulé que six mois et que presque tous les outils de mon processus de développement AI ont été renouvelés :
1. L'outil de programmation AI est passé de Cursor à Claude Code.
2. Les ressources 2D sont passées de Midjourney à Nano Banana.
3. L'évolution des actifs 3D est la plus révolutionnaire, passant directement de jouets à outils.
Donc, ne vous imposez pas de limites, ne limitez pas l'IA, vous devez juste clarifier ce que vous voulez faire, essayez tous les six mois, vous pourriez avoir des surprises inattendues. Je pense que cette nouvelle capacité hyper3D a la possibilité d'améliorer l'efficacité de nombreuses petites équipes de jeux et donnera également à de nombreux développeurs comme moi, sans aucune base, la chance de créer leur premier jeu 3D.
73,62K
Meilleurs
Classement
Favoris