DeepSeek vient de publier un nouvel article assez choquant. Ils ont vraiment enterré le lede ici en le désignant simplement comme DeepSeek OCR. Bien que ce soit un modèle OCR très performant, son objectif et les implications de leur approche vont bien au-delà de ce que vous pourriez attendre d'« un autre modèle OCR ». Traditionnellement, les tokens LLM visuels semblaient presque être une réflexion après coup ou un « ajout » au paradigme LLM. Et 10 000 mots en anglais prendraient beaucoup plus de place dans un LLM multimodal lorsqu'ils sont exprimés sous forme de pixels intelligibles que lorsqu'ils sont exprimés sous forme de tokens. Ainsi, ces 10 000 mots pourraient se transformer en 15 000 tokens, ou 30 000 à 60 000 « tokens visuels ». Donc, les tokens visuels étaient beaucoup moins efficaces et ne faisaient vraiment sens que pour des données qui ne pouvaient pas être efficacement transmises par des mots. Mais cela s'inverse maintenant avec les idées de cet article. DeepSeek a découvert comment obtenir une compression 10 fois meilleure en utilisant des tokens visuels que des tokens textuels ! Vous pourriez donc théoriquement stocker ces 10 000 mots dans seulement 1 500 de leurs tokens visuels compressés spéciaux. Cela pourrait ne pas être aussi inattendu que cela en a l'air si vous pensez à la façon dont votre propre esprit fonctionne. Après tout, je sais que lorsque je cherche une partie d'un livre que j'ai déjà lu, je l'imagine visuellement et je me souviens toujours de quel côté du livre elle se trouvait et approximativement où elle était sur la page, ce qui suggère une sorte de représentation de mémoire visuelle en action. Maintenant, il n'est pas clair comment cela interagit exactement avec les autres fonctions cognitives en aval d'un LLM ; le modèle peut-il raisonner aussi intelligemment sur ces tokens visuels compressés qu'il le peut en utilisant des tokens textuels normaux ? Cela rend-il le modèle moins articulé en le forçant dans une modalité plus orientée vers la vision ? Mais vous pouvez imaginer que, selon les compromis exacts, cela pourrait être un nouvel axe très excitant pour élargir considérablement les tailles de contexte effectives. Surtout lorsqu'il est combiné avec l'autre article récent de DeepSeek d'il y a quelques semaines sur l'attention sparse. Pour autant que nous sachions, Google aurait déjà pu découvrir quelque chose comme cela, ce qui pourrait expliquer pourquoi Gemini a une taille de contexte si énorme et est si bon et rapide dans les tâches OCR. S'ils l'ont fait, ils ne le diraient probablement pas car cela serait considéré comme un secret commercial important. Mais la bonne chose à propos de DeepSeek, c'est qu'ils ont rendu l'ensemble du projet open source et ouvert en termes de poids et ont expliqué comment ils l'ont fait, donc maintenant tout le monde peut l'essayer et explorer. Même si ces astuces rendent l'attention plus perdante, le potentiel d'obtenir un LLM de pointe avec une fenêtre de contexte de 10 ou 20 millions de tokens est assez excitant. Vous pourriez essentiellement entasser tous les documents internes clés d'une entreprise dans un préambule de prompt et le mettre en cache avec OpenAI, puis ajouter simplement votre requête ou prompt spécifique par-dessus et ne pas avoir à gérer des outils de recherche tout en restant rapide et rentable. Ou mettre un code source entier dans le contexte et le mettre en cache, puis continuer à ajouter l'équivalent des diffs git au fur et à mesure que vous apportez des modifications au code. Si vous avez déjà lu des histoires sur le grand physicien Hans Bethe, il était connu pour avoir mémorisé d'énormes quantités de faits physiques aléatoires (comme l'ensemble du tableau périodique ; les points d'ébullition de diverses substances, etc.) afin qu'il puisse penser et calculer sans jamais avoir à interrompre son flux pour chercher quelque chose dans une table de référence. Avoir d'énormes quantités de connaissances spécifiques à une tâche dans votre mémoire de travail est extrêmement utile. Cela semble être une approche très astucieuse et additive pour potentiellement élargir cette banque de mémoire par 10 fois ou plus.
Voici quelques bonnes conclusions de Claude Opus4.1 sur le document si vous n'avez pas envie de lire tout le truc (c'est aussi assez technique) :
Le fait que vous puissiez "compresser" de manière avec perte la mémoire contextuelle plus ancienne en réduisant automatiquement la résolution des représentations visuelles de ces jetons (par exemple, de 1024x1024 pixels à 512x512 pixels) pour économiser de l'espace en rendant ces souvenirs "plus flous" parle directement de ce que @karpathy défendait dans son interview avec Dwarkesh sur le fait de rendre les LLMs moins dépendants de la mémorisation exacte. Et bien sûr, cela reflète également comment fonctionne mieux l'esprit humain.
122,37K