Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

A DeepSeek acaba de lançar um novo artigo bastante chocante. Eles realmente enterraram a informação principal aqui ao se referirem a ele simplesmente como DeepSeek OCR. Embora seja um modelo OCR muito forte, o propósito dele e as implicações da abordagem deles vão muito além do que você esperaria de "mais um modelo OCR". Tradicionalmente, os tokens de visão LLM quase pareciam um pensamento secundário ou um "acréscimo" ao paradigma LLM. E 10 mil palavras em inglês ocupavam muito mais espaço em um LLM multimodal quando expressas como pixels inteligíveis do que quando expressas como tokens. Assim, aquelas 10 mil palavras podem ter se transformado em 15 mil tokens, ou 30 mil a 60 mil "tokens visuais". Portanto, os tokens de visão eram muito menos eficientes e realmente só faziam sentido para dados que não podiam ser efetivamente transmitidos com palavras. Mas isso agora se inverte a partir das ideias deste artigo. A DeepSeek descobriu como obter uma compressão 10x melhor usando tokens visuais do que com tokens de texto! Assim, você poderia teoricamente armazenar aquelas 10 mil palavras em apenas 1.500 de seus especiais tokens visuais comprimidos. Isso pode não ser tão inesperado quanto parece se você pensar em como sua própria mente funciona. Afinal, eu sei que quando estou procurando uma parte de um livro que já li, imagino-a visualmente e sempre lembro de qual lado do livro estava e aproximadamente onde na página estava, o que sugere algum tipo de representação de memória visual em ação. Agora, não está claro como exatamente isso interage com o outro funcionamento cognitivo a jusante de um LLM; o modelo pode raciocinar tão inteligentemente sobre aqueles tokens visuais comprimidos quanto pode usando tokens de texto normais? Isso torna o modelo menos articulado ao forçá-lo a uma modalidade mais orientada à visão? Mas você pode imaginar que, dependendo dos trade-offs exatos, isso poderia ser um novo eixo muito empolgante para expandir significativamente os tamanhos de contexto efetivos. Especialmente quando combinado com o outro artigo recente da DeepSeek de algumas semanas atrás sobre atenção esparsa. Por tudo que sabemos, o Google já poderia ter descoberto algo assim, o que poderia explicar por que o Gemini tem um tamanho de contexto tão grande e é tão bom e rápido em tarefas de OCR. Se eles fizeram, provavelmente não diriam porque seria visto como um importante segredo comercial. Mas a parte boa da DeepSeek é que eles tornaram tudo isso de código aberto e explicaram como fizeram, então agora todos podem experimentar e explorar. Mesmo que esses truques tornem a atenção mais perdedora, o potencial de obter um LLM de fronteira com uma janela de contexto de 10 ou 20 milhões de tokens é bastante empolgante. Você poderia basicamente enfiar todos os documentos internos chave de uma empresa em um preâmbulo de prompt e armazenar isso com a OpenAI e então apenas adicionar sua consulta ou prompt específico em cima disso e não ter que lidar com ferramentas de busca e ainda assim ser rápido e econômico. Ou colocar uma base de código inteira no contexto e armazená-la, e então apenas continuar adicionando o equivalente aos diffs do git à medida que você faz alterações no código. Se você já leu histórias sobre o grande físico Hans Bethe, ele era conhecido por ter vastas quantidades de fatos físicos aleatórios memorizados (como a tabela periódica inteira; pontos de ebulição de várias substâncias, etc.) para que pudesse pensar e calcular sem nunca ter que interromper seu fluxo para procurar algo em uma tabela de referência. Ter vastas quantidades de conhecimento específico da tarefa em sua memória de trabalho é extremamente útil. Isso parece uma abordagem muito inteligente e aditiva para potencialmente expandir esse banco de memória em 10x ou mais.

Aqui estão algumas boas conclusões do Claude Opus4.1 sobre o artigo, se você não se sentir à vontade para ler tudo (também é bastante técnico):

A questão sobre como você poderia "comprimir" de uma maneira com perda a memória de contexto mais antiga, reduzindo automaticamente a resolução das representações visuais desses tokens (digamos, de 1024x1024 pixels para 512x512 pixels) para economizar espaço, tornando essas memórias "mais nebulosas", fala diretamente ao que @karpathy defendia em sua entrevista com Dwarkesh sobre tornar os LLMs menos dependentes da memorização exata. E, claro, isso reflete melhor como a mente humana funciona também.

122,33K

Top

Classificação

Favoritos