Um tópico mais sério sobre o hype do DeepSeek-OCR / sérias interpretações errôneas acontecendo. 1. Na redução de token por meio da representação de texto em imagens, pesquisadores de Cambridge mostraram anteriormente que a compactação de token de prompt de 500x é possível (ACL'25, Li, Su e Collier). Sem usar a ideia de converter texto em imagens. 2. Não devemos atribuir o sucesso do DeepSeek OCR ao poder da representação de imagens. Ao mesmo tempo, não há nada fundamentalmente errado com a representação de texto com qualquer tokenizador. Na verdade, você pode fazer o oposto do que o DeepSeek-OCR fez, ou seja, você pode representar imagens como uma sequência de tokens de texto (cada um representando seus valores RGB), e as coisas funcionarão bem. (Veja o artigo LIFT.) 3. A única conclusão correta é que os atuais espaços de incorporação usados pelos LLMs são enormes e talvez até muito desperdiçadores. E o mais importante, ainda não estamos fazendo uso total deles. 4. Há muitas evidências recentes que apóiam a mesma mensagem. Por exemplo, é mostrado que, se você fornecer demonstrações no contexto de várias tarefas, mas misturadas em um único contexto, seu modelo poderá resolver várias tarefas de previsão de ICL simultaneamente. (Veja o artigo TUDO EM TODOS OS LUGARES AO MESMO TEMPO.) 5. tldr; - DeepSeek-OCR é legal - mas você pode obter uma taxa de redução de token mais alta apenas ajustando LLMs em tokens de texto espremidos - há mais evidências de que os LLMs não estão utilizando totalmente o grande espaço de incorporação e a enorme quantidade de computação que entra no momento da inferência - e essa é a única lição real que você deve tirar