DeepSeek 破解了 O(L²) 注意力瓶颈。 他们的新 V3.2 模型引入了 DeepSeek 稀疏注意力 (DSA),这是他们唯一的架构变化。这告诉你这有多重要。 它解决了什么: 标准注意力的扩展是平方级的。将上下文长度加倍,计算量增加四倍。这就是为什么长上下文推理成本迅速增加。 DSA 将复杂度从 O(L²) 降低到 O(Lk),其中 k 是固定的。 它是如何工作的: 一个轻量级的 Lightning Indexer 为每个查询评分哪些 token 实际上是重要的。少量的头,运行在 FP8,计算成本低。然后选择机制仅检索前 k 个键值条目。 关键见解:每个查询仅选择 2,048 个 token,无论上下文长度如何。昂贵的注意力计算发生在这个小子集上,而不是完整的 128K 序列上。 更少的注意力,更好的结果。DeepSeek V3.2 刚刚证明了这一点。 结果: 在 128K 上下文下,预填充成本从每百万 token ~$0.65 降至 ~$0.35。解码成本从 ~$2.4 降至 ~$0.8。 而性能呢?保持不变。在一些长上下文基准测试中,V3.2 实际上得分更高。 稀疏注意力并不新鲜。让它在不失去质量的情况下工作是困难的。 DeepSeek 通过两阶段训练过程破解了这一点,首先使用 KL 散度对齐索引器,然后训练完整模型以适应稀疏模式。 这就是如何在不增加成本的情况下扩展上下文。 ...