热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
关于DeepSeek-OCR炒作/严重误解的更严肃的讨论。
1.
关于通过将文本表示为图像来减少令牌,剑桥的研究人员之前已经证明,500倍的提示令牌压缩是可能的(ACL'25,Li,Su和Collier)。
而不使用将文本转换为图像的想法。
2.
我们不应该将DeepSeek OCR的成功归因于图像表示的力量。
同时,使用任何分词器进行文本表示并没有根本上的错误。
事实上,你可以做与DeepSeek-OCR相反的事情,即你可以将图像表示为一系列文本令牌(每个代表其RGB值),一切都会正常工作。(参见LIFT论文。)
3.
唯一正确的结论是,当前LLMs使用的嵌入空间是巨大的,甚至可能非常浪费。
而且重要的是,我们还没有充分利用它们。
4.
最近有很多证据支持同样的信息。
例如,有证据表明,如果你在单一上下文中提供来自多个任务的上下文演示,那么你的模型可以同时解决多个ICL预测任务。(参见EVERYTHING EVERYWHERE ALL AT ONCE论文。)
5.
tldr;
- DeepSeek-OCR很酷
- 但你可以通过对压缩文本令牌进行微调LLMs来实现更高的令牌减少率
- 有更多证据表明LLMs没有充分利用大嵌入空间以及在推理时投入的大量计算
- 这才是你应该真正记住的唯一结论



热门
排行
收藏

