Por que o DeepSeek-OCR é um GRANDE NEGÓCIO?
Os LLMs existentes lutam com entradas longas porque só podem lidar com um número fixo de tokens, conhecido como janela de contexto, e o custo de atenção cresce rapidamente à medida que as entradas ficam mais longas.
O DeepSeek-OCR adota uma nova abordagem.
Em vez de enviar contexto longo diretamente para um LLM, ele o transforma em uma imagem, compacta essa imagem em tokens visuais e, em seguida, passa esses tokens para o LLM.
Menos tokens levam a um menor custo computacional da atenção e a uma janela de contexto efetiva maior. Isso torna os chatbots e modelos de documentos mais capazes e eficientes.
Como o DeepSeek-OCR é construído? O sistema tem duas partes principais:
1. Codificador: Processa uma imagem de texto, extrai os recursos visuais e os compacta em um pequeno número de tokens de visão.
2. Decodificador: Um modelo de linguagem Mix of Experts que lê esses tokens e gera texto um token por vez, semelhante a um transformador somente decodificador padrão.
Quando usar?
O DeepSeek-OCR mostra que o texto pode ser compactado com eficiência usando representações visuais.
É especialmente útil para lidar com documentos muito longos que excedem os limites de contexto padrão. Você pode usá-lo para compactação de contexto, tarefas de OCR padrão ou análise profunda, como converter tabelas e layouts complexos em texto.
Para você: O que você acha do uso de tokens visuais para lidar com problemas de contexto longo em LLMs? Isso poderia se tornar o próximo padrão para modelos grandes?
--
Acabamos de lançar o Torne-se um engenheiro de IA | Aprenda fazendo: Coorte 2. Se você perdeu a Coorte 1, agora é sua chance de se juntar a nós na Coorte 2.
Confira aqui:
#AI #AIEngineer #MachineLearning
.