Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Andrej Karpathy a proposé une idée très radicale : toutes les entrées des LLM devraient être des images, y compris le texte pur.
Que signifie cela ?
Modèle de langage traditionnel : texte → tokenizer → LLM → sortie
La vision d'Andrej : texte → rendu en image → LLM → sortie
Même si ce que vous devez entrer est du texte pur, il faut d'abord le rendre en image, puis le donner au modèle.
Pourquoi faire cela ?
Il a donné 4 raisons :
1. Compression d'information plus efficace
C'est exactement ce que DeepSeek-OCR a prouvé. Une page de document, de manière traditionnelle, pourrait nécessiter 2000 tokens de texte, alors qu'avec des tokens d'image, il n'en faut que 64. Taux de compression de 30 fois.
Les tokens de texte sont très gaspillés, les tokens d'image sont plus denses.
2. Plus universel
Les tokens de texte ne peuvent exprimer que des mots. Mais l'information dans le monde réel n'est pas seulement des mots :
- Gras, italique
- Texte coloré
- Tableaux, graphiques
- Images quelconques
Tout rendu en image en entrée, le modèle peut naturellement traiter cela.
...
Meilleurs
Classement
Favoris