Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Um tópico mais sério sobre a hype do DeepSeek-OCR / séria má interpretação que está acontecendo.
1.
Sobre a redução de tokens através da representação de texto em imagens, pesquisadores de Cambridge já mostraram anteriormente que uma compressão de 500x de tokens de prompt é possível (ACL'25, Li, Su e Collier).
Sem usar a ideia de converter texto em imagens.
2.
Não devemos atribuir o sucesso do DeepSeek OCR ao poder da representação de imagens.
Ao mesmo tempo, não há nada fundamentalmente errado com a representação de texto com qualquer tokenizer.
Na verdade, você pode fazer o oposto do que o DeepSeek-OCR fez, ou seja, você pode representar imagens como uma sequência de tokens de texto (cada um representando seus valores RGB), e as coisas funcionarão bem. (Veja o artigo LIFT.)
3.
A única conclusão correta é que os atuais espaços de incorporação usados por LLMs são apenas enormes e talvez até muito desperdícios.
E, o mais importante, ainda não estamos fazendo pleno uso deles.
4.
Há muitas evidências recentes apoiando a mesma mensagem.
Por exemplo, foi mostrado que se você fornecer demonstrações em contexto de várias tarefas, mas misturadas em um único contexto, então seu modelo pode resolver várias tarefas de previsão ICL simultaneamente. (Veja o artigo EVERYTHING EVERYWHERE ALL AT ONCE.)
5.
tldr;
- DeepSeek-OCR é legal
- mas você pode alcançar uma taxa de redução de tokens mais alta apenas ajustando finamente os LLMs em tokens de texto comprimidos
- há mais evidências de que os LLMs não estão utilizando totalmente o grande espaço de incorporação e a enorme quantidade de computação que é utilizada no tempo de inferência
- e essa é a única conclusão real que você deve levar.



Top
Classificação
Favoritos

