Andrej Karpathy a proposé une idée très radicale : toutes les entrées des LLM devraient être des images, y compris le texte pur. Que signifie cela ? Modèle de langage traditionnel : texte → tokenizer → LLM → sortie La vision d'Andrej : texte → rendu en image → LLM → sortie Même si ce que vous devez entrer est du texte pur, il faut d'abord le rendre en image, puis le donner au modèle. Pourquoi faire cela ? Il a donné 4 raisons : 1. Compression d'information plus efficace C'est exactement ce que DeepSeek-OCR a prouvé. Une page de document, de manière traditionnelle, pourrait nécessiter 2000 tokens de texte, alors qu'avec des tokens d'image, il n'en faut que 64. Taux de compression de 30 fois. Les tokens de texte sont très gaspillés, les tokens d'image sont plus denses. 2. Plus universel Les tokens de texte ne peuvent exprimer que des mots. Mais l'information dans le monde réel n'est pas seulement des mots : - Gras, italique - Texte coloré - Tableaux, graphiques - Images quelconques Tout rendu en image en entrée, le modèle peut naturellement traiter cela. ...