热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
DeepSeek 破解了 O(L²) 注意力瓶颈。
他们的新 V3.2 模型引入了 DeepSeek 稀疏注意力 (DSA),这是他们唯一的架构变化。这告诉你这有多重要。
它解决了什么:
标准注意力的扩展是平方级的。将上下文长度加倍,计算量增加四倍。这就是为什么长上下文推理成本迅速增加。
DSA 将复杂度从 O(L²) 降低到 O(Lk),其中 k 是固定的。
它是如何工作的:
一个轻量级的 Lightning Indexer 为每个查询评分哪些 token 实际上是重要的。少量的头,运行在 FP8,计算成本低。然后选择机制仅检索前 k 个键值条目。
关键见解:每个查询仅选择 2,048 个 token,无论上下文长度如何。昂贵的注意力计算发生在这个小子集上,而不是完整的 128K 序列上。
更少的注意力,更好的结果。DeepSeek V3.2 刚刚证明了这一点。
结果:
在 128K 上下文下,预填充成本从每百万 token ~$0.65 降至 ~$0.35。解码成本从 ~$2.4 降至 ~$0.8。
而性能呢?保持不变。在一些长上下文基准测试中,V3.2 实际上得分更高。
稀疏注意力并不新鲜。让它在不失去质量的情况下工作是困难的。
DeepSeek 通过两阶段训练过程破解了这一点,首先使用 KL 散度对齐索引器,然后训练完整模型以适应稀疏模式。
这就是如何在不增加成本的情况下扩展上下文。
...

热门
排行
收藏

