关于DeepSeek-OCR炒作/严重误解的更严肃的讨论。 1. 关于通过将文本表示为图像来减少令牌,剑桥的研究人员之前已经证明,500倍的提示令牌压缩是可能的(ACL'25,Li,Su和Collier)。 而不使用将文本转换为图像的想法。 2. 我们不应该将DeepSeek OCR的成功归因于图像表示的力量。 同时,使用任何分词器进行文本表示并没有根本上的错误。 事实上,你可以做与DeepSeek-OCR相反的事情,即你可以将图像表示为一系列文本令牌(每个代表其RGB值),一切都会正常工作。(参见LIFT论文。) 3. 唯一正确的结论是,当前LLMs使用的嵌入空间是巨大的,甚至可能非常浪费。 而且重要的是,我们还没有充分利用它们。 4. 最近有很多证据支持同样的信息。 例如,有证据表明,如果你在单一上下文中提供来自多个任务的上下文演示,那么你的模型可以同时解决多个ICL预测任务。(参见EVERYTHING EVERYWHERE ALL AT ONCE论文。) 5. tldr; - DeepSeek-OCR很酷 - 但你可以通过对压缩文本令牌进行微调LLMs来实现更高的令牌减少率 - 有更多证据表明LLMs没有充分利用大嵌入空间以及在推理时投入的大量计算 - 这才是你应该真正记住的唯一结论