热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
DeepSeek刚刚发布了一篇相当震惊的新论文。他们在这里埋藏了重点,仅仅称其为DeepSeek OCR。
虽然这是一种非常强大的OCR模型,但它的目的和他们的方法的影响远远超出了你对“又一个OCR模型”的预期。
传统上,视觉LLM令牌几乎看起来像是对LLM范式的附加或“附加组件”。而10,000个英文单词在以可理解的像素形式表达时,在多模态LLM中占用的空间远远超过以令牌形式表达时的空间。
因此,这10,000个单词可能变成了15,000个令牌,或者30,000到60,000个“视觉令牌”。因此,视觉令牌的效率要低得多,实际上只适用于无法用文字有效传达的数据。
但根据这篇论文中的想法,这种情况现在被颠倒了。DeepSeek找到了使用视觉令牌比使用文本令牌获得10倍更好压缩的方法!因此,理论上你可以将这10,000个单词仅存储在1,500个他们特殊的压缩视觉令牌中。
如果你考虑到自己思维的运作方式,这可能并不像听起来那么意外。毕竟,我知道当我寻找一本我已经读过的书中的某个部分时,我会在脑海中想象它的视觉形象,并且总是记得它在书的哪一侧以及大致在页面的哪个位置,这表明某种视觉记忆表征在起作用。
现在,尚不清楚这如何与LLM的其他下游认知功能相互作用;模型能否像使用常规文本令牌那样智能地推理这些压缩的视觉令牌?这是否会通过将模型强制转入更视觉导向的模式而使其表达能力降低?
但你可以想象,根据具体的权衡,这可能是一个非常令人兴奋的新轴,极大地扩展有效的上下文大小。特别是当与DeepSeek几周前关于稀疏注意力的另一篇论文结合时。
据我们所知,谷歌可能已经找到了类似的东西,这可能解释了为什么Gemini具有如此巨大的上下文大小,并且在OCR任务中表现得如此出色和快速。如果他们真的这样做了,他们可能不会说,因为这将被视为一个重要的商业秘密。
但DeepSeek的好处在于,他们将整个项目开源并公开权重,并解释了他们是如何做到的,因此现在每个人都可以尝试并探索。
即使这些技巧使注意力变得更加损失,获得一个具有1000万或2000万令牌上下文窗口的前沿LLM的潜力也是相当令人兴奋的。
你基本上可以将公司的所有关键内部文件塞入提示前言,并将其与OpenAI缓存,然后只需在此基础上添加你的特定查询或提示,而不必处理搜索工具,仍然可以保持快速和具有成本效益。
或者将整个代码库放入上下文并缓存,然后在对代码进行更改时,只需不断附加相当于git差异的内容。
如果你曾经读过关于伟大物理学家汉斯·贝特的故事,他以记住大量随机物理事实而闻名(例如整个周期表;各种物质的沸点等),以便他可以无缝地思考和计算,而无需打断他的思路去查找参考表中的内容。
在你的工作记忆中拥有大量特定任务的知识是极其有用的。这似乎是一种非常聪明和增补的方法,可能将这种记忆库扩展10倍或更多。
如果你不想阅读整篇论文,这里是来自Claude Opus4.1的一些好的要点(它也相当技术性):




关于如何以有损的方式“压缩”旧的上下文记忆,通过自动下采样这些标记的视觉表示(比如,从1024x1024像素降到512x512像素)来节省空间,使这些记忆变得“模糊”,直接与@karpathy在他的Dwarkesh采访中提到的让LLM减少对精确记忆依赖的观点相呼应。当然,这也更好地反映了人类思维的运作方式。
95.1K
热门
排行
收藏