DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

A DeepSeek acaba de lançar um novo artigo bastante chocante. Eles realmente enterraram o lede aqui, referindo-se a ele simplesmente como DeepSeek OCR. Embora seja um modelo de OCR muito forte, o objetivo dele e as implicações de sua abordagem vão muito além do que você esperaria de "mais um modelo de OCR". Tradicionalmente, os tokens de visão LLM quase pareciam uma reflexão tardia ou "aparafusada" ao paradigma LLM. E 10 mil palavras em inglês ocupariam muito mais espaço em um LLM multimodal quando expressas como pixels inteligíveis do que quando expressas como tokens. Portanto, essas 10 mil palavras podem ter se transformado em 15 mil tokens, ou 30 mil a 60 mil "tokens visuais". Portanto, os tokens de visão eram muito menos eficientes e realmente só faziam sentido usar para dados que não podiam ser transmitidos de forma eficaz com palavras. Mas isso se inverte agora a partir das ideias deste artigo. O DeepSeek descobriu como obter uma compactação 10x melhor usando tokens de visão do que com tokens de texto! Portanto, você poderia, teoricamente, armazenar essas 10 mil palavras em apenas 1.500 de seus tokens visuais compactados especiais. Isso pode não ser tão inesperado quanto parece se você pensar em como sua própria mente funciona. Afinal, sei que quando procuro uma parte de um livro que já li, imagino-a visualmente e sempre me lembro de que lado do livro estava e aproximadamente onde estava na página, o que sugere algum tipo de representação de memória visual em ação. Agora, não está claro como exatamente isso interage com o outro funcionamento cognitivo downstream de um LLM; O modelo pode raciocinar de forma tão inteligente sobre esses tokens visuais compactados quanto usando tokens de texto regulares? Isso torna o modelo menos articulado, forçando-o a uma modalidade mais orientada para a visão? Mas você pode imaginar que, dependendo das compensações exatas, pode ser um novo eixo muito empolgante para expandir muito os tamanhos de contexto efetivos. Especialmente quando combinado com o outro artigo recente da DeepSeek de algumas semanas atrás sobre atenção esparsa. Pelo que sabemos, o Google já poderia ter descoberto algo assim, o que poderia explicar por que o Gemini tem um tamanho de contexto tão grande e é tão bom e rápido em tarefas de OCR. Se o fizessem, provavelmente não diriam porque seria visto como um importante segredo comercial. Mas o bom do DeepSeek é que eles tornaram tudo de código aberto e pesos abertos e explicaram como fizeram isso, então agora todos podem experimentar e explorar. Mesmo que esses truques tornem a atenção mais perda, o potencial de obter um LLM de fronteira com uma janela de contexto de 10 ou 20 milhões de tokens é bastante empolgante. Basicamente, você pode amontoar todos os principais documentos internos de uma empresa em um preâmbulo de prompt e armazená-lo em cache com o OpenAI e, em seguida, adicionar sua consulta ou prompt específico em cima disso e não ter que lidar com ferramentas de pesquisa e ainda ser rápido e econômico. Ou coloque uma base de código inteira no contexto e armazene-a em cache e, em seguida, continue anexando o equivalente aos diffs do git à medida que você faz alterações no código. Se você já leu histórias sobre o grande físico Hans Bethe, ele era conhecido por ter grandes quantidades de fatos físicos aleatórios memorizados (como toda a tabela periódica; pontos de ebulição de várias substâncias, etc.) para que ele pudesse pensar e calcular perfeitamente sem nunca ter que interromper seu fluxo para procurar algo em uma tabela de referência. Ter grandes quantidades de conhecimento específico de tarefas em sua memória de trabalho é extremamente útil. Esta parece ser uma abordagem muito inteligente e aditiva para potencialmente expandir esse banco de memória em 10x ou mais.

Aqui estão algumas boas conclusões de Claude Opus4.1 no papel, se você não quiser ler a coisa toda (também é bastante técnico):

As coisas sobre como você poderia "comprimir" de uma forma com perdas a memória de contexto mais antiga, reduzindo automaticamente a amostragem das representações visuais desses tokens (digamos, de 1024x1024 pixels para 512x512 pixels) para economizar espaço, tornando essas memórias "mais nebulosas", fala diretamente sobre o que @karpathy estava defendendo em sua entrevista com Dwarkesh sobre tornar os LLMs menos dependentes da memorização exata. E, claro, isso reflete como a mente humana funciona melhor também.

163,1K

Melhores

Classificação

Favoritos