DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

AI进化论-花生

Andrej Karpathy a proposé une idée très radicale : toutes les entrées des LLM devraient être des images, y compris le texte pur. Que signifie cela ? Modèle de langage traditionnel : texte → tokenizer → LLM → sortie La vision d'Andrej : texte → rendu en image → LLM → sortie Même si ce que vous devez entrer est du texte pur, il faut d'abord le rendre en image, puis le donner au modèle. Pourquoi faire cela ? Il a donné 4 raisons : 1. Compression d'information plus efficace C'est exactement ce que DeepSeek-OCR a prouvé. Une page de document, de manière traditionnelle, pourrait nécessiter 2000 tokens de texte, alors qu'avec des tokens d'image, il n'en faut que 64. Taux de compression de 30 fois. Les tokens de texte sont très gaspillés, les tokens d'image sont plus denses. 2. Plus universel Les tokens de texte ne peuvent exprimer que des mots. Mais l'information dans le monde réel n'est pas seulement des mots : - Gras, italique - Texte coloré - Tableaux, graphiques - Images quelconques Tout rendu en image en entrée, le modèle peut naturellement traiter cela. 3. Peut utiliser l'attention bidirectionnelle Ce sont des détails techniques. Le texte à texte traditionnel est autorégressif (de gauche à droite). L'entrée d'image peut utiliser l'attention bidirectionnelle, voir l'information globale, plus puissant. 4. Supprimer le tokenizer (point clé !) Andrej déteste le tokenizer. Ses critiques : - Le tokenizer est une étape laide, indépendante et non end-to-end - Il hérite de tous les fardeaux historiques de l'Unicode et de l'encodage des octets - Il y a des risques de sécurité (comme les attaques par bytes de continuation) - Deux caractères qui semblent identiques peuvent être complètement différents aux yeux du tokenizer - 😊 Cet emoji dans le tokenizer n'est qu'un token étrange, pas une véritable image de sourire Il espère que le tokenizer disparaisse. Quelle est sa vision ? - Entrée : tout est image (même si c'est à l'origine du texte) - Sortie : reste du texte (car sortir des pixels n'est pas réaliste) L'OCR n'est qu'une des tâches vision→texte. Beaucoup de tâches texte→texte peuvent devenir vision→texte. Mon interprétation Le point de vue d'Andrej est très radical, mais il a effectivement du sens. D'un point de vue théorique de l'information, l'image est effectivement plus efficace que le texte. DeepSeek-OCR l'a prouvé : 64 tokens d'image peuvent exprimer l'information de 2000 tokens de texte. D'un point de vue d'universalité, l'entrée d'image prend en charge naturellement divers formats (gras, couleur, graphiques), sans avoir besoin de ce niveau intermédiaire qu'est le tokenizer. Mais le problème est : 1. Coût de calcul : traiter des tokens d'image est plus coûteux que des tokens de texte. Bien que le nombre de tokens soit réduit, chaque token d'image nécessite plus de calcul. 2. Données d'entraînement : la plupart des données d'entraînement existantes sont du texte pur. Tout rendre en image coûte très cher. 3. Problème de sortie : il admet aussi que sortir des pixels n'est pas réaliste. Donc, cela ne peut être qu'un mode mixte d'entrée d'image → sortie de texte. Mais à long terme, cette direction pourrait être la bonne. Surtout en considérant : - L'entrée humaine est naturellement multimodale (texte, images, vidéos) - Le tokenizer a effectivement beaucoup de problèmes (sécurité, Unicode, fardeaux historiques) - L'IA du futur devrait pouvoir comprendre directement les pixels, plutôt que de tout transformer en tokens DeepSeek-OCR n'est peut-être que le début. Il a prouvé que "la compression optique contextuelle" est réalisable. Andrej voit un avenir plus lointain : un monde sans tokenizer, où toutes les entrées sont des images et toutes les sorties sont du texte. Cela deviendra-t-il réalité ? Je ne sais pas. Mais au moins, cette direction mérite d'être explorée.

Meilleurs

Classement

Favoris