一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

关于DeepSeek-OCR炒作/严重误解的更严肃的讨论。 1. 关于通过将文本表示为图像来减少令牌，剑桥的研究人员之前已经证明，500倍的提示令牌压缩是可能的（ACL'25，Li，Su和Collier）。而不使用将文本转换为图像的想法。 2. 我们不应该将DeepSeek OCR的成功归因于图像表示的力量。同时，使用任何分词器进行文本表示并没有根本上的错误。事实上，你可以做与DeepSeek-OCR相反的事情，即你可以将图像表示为一系列文本令牌（每个代表其RGB值），一切都会正常工作。（参见LIFT论文。） 3. 唯一正确的结论是，当前LLMs使用的嵌入空间是巨大的，甚至可能非常浪费。而且重要的是，我们还没有充分利用它们。 4. 最近有很多证据支持同样的信息。例如，有证据表明，如果你在单一上下文中提供来自多个任务的上下文演示，那么你的模型可以同时解决多个ICL预测任务。（参见EVERYTHING EVERYWHERE ALL AT ONCE论文。） 5. tldr; - DeepSeek-OCR很酷 - 但你可以通过对压缩文本令牌进行微调LLMs来实现更高的令牌减少率 - 有更多证据表明LLMs没有充分利用大嵌入空间以及在推理时投入的大量计算 - 这才是你应该真正记住的唯一结论