Pourquoi DeepSeek-OCR est-il un SI GRAND PROBLÈME ?
Les LLM existants ont du mal avec les longues entrées car ils ne peuvent gérer qu'un nombre fixe de tokens, connu sous le nom de fenêtre de contexte, et le coût d'attention augmente rapidement à mesure que les entrées deviennent plus longues.
DeepSeek-OCR adopte une nouvelle approche.
Au lieu d'envoyer un long contexte directement à un LLM, il le transforme en image, compresse cette image en tokens visuels, puis passe ces tokens au LLM.
Moins de tokens entraînent un coût computationnel plus faible dû à l'attention et une fenêtre de contexte effective plus grande. Cela rend les chatbots et les modèles de documents plus capables et efficaces.
Comment DeepSeek-OCR est-il construit ? Le système a deux parties principales :
1. Encodeur : Il traite une image de texte, extrait les caractéristiques visuelles et les compresse en un petit nombre de tokens visuels.
2. Décodeur : Un modèle de langage Mixture of Experts qui lit ces tokens et génère du texte un token à la fois, similaire à un décodeur standard uniquement transformateur.
Quand l'utiliser ?
DeepSeek-OCR montre que le texte peut être efficacement compressé en utilisant des représentations visuelles.
Il est particulièrement utile pour traiter des documents très longs qui dépassent les limites de contexte standard. Vous pouvez l'utiliser pour la compression de contexte, les tâches OCR standard ou le parsing approfondi, comme la conversion de tableaux et de mises en page complexes en texte.
À vous : Que pensez-vous de l'utilisation de tokens visuels pour résoudre les problèmes de long contexte dans les LLM ? Cela pourrait-il devenir la prochaine norme pour les grands modèles ?
--
Nous venons de lancer Devenez un AI Engineer | Apprenez en faisant : Cohorte 2. Si vous avez manqué la Cohorte 1, c'est votre chance de nous rejoindre pour la Cohorte 2.
Découvrez-le ici :
#AI #AIEngineer #MachineLearning