Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Um tópico mais sério sobre o hype do DeepSeek-OCR / sérias interpretações errôneas acontecendo.
1.
Na redução de token por meio da representação de texto em imagens, pesquisadores de Cambridge mostraram anteriormente que a compactação de token de prompt de 500x é possível (ACL'25, Li, Su e Collier).
Sem usar a ideia de converter texto em imagens.
2.
Não devemos atribuir o sucesso do DeepSeek OCR ao poder da representação de imagens.
Ao mesmo tempo, não há nada fundamentalmente errado com a representação de texto com qualquer tokenizador.
Na verdade, você pode fazer o oposto do que o DeepSeek-OCR fez, ou seja, você pode representar imagens como uma sequência de tokens de texto (cada um representando seus valores RGB), e as coisas funcionarão bem. (Veja o artigo LIFT.)
3.
A única conclusão correta é que os atuais espaços de incorporação usados pelos LLMs são enormes e talvez até muito desperdiçadores.
E o mais importante, ainda não estamos fazendo uso total deles.
4.
Há muitas evidências recentes que apóiam a mesma mensagem.
Por exemplo, é mostrado que, se você fornecer demonstrações no contexto de várias tarefas, mas misturadas em um único contexto, seu modelo poderá resolver várias tarefas de previsão de ICL simultaneamente. (Veja o artigo TUDO EM TODOS OS LUGARES AO MESMO TEMPO.)
5.
tldr;
- DeepSeek-OCR é legal
- mas você pode obter uma taxa de redução de token mais alta apenas ajustando LLMs em tokens de texto espremidos
- há mais evidências de que os LLMs não estão utilizando totalmente o grande espaço de incorporação e a enorme quantidade de computação que entra no momento da inferência
- e essa é a única lição real que você deve tirar



Melhores
Classificação
Favoritos

