熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
DeepSeek 破解了 O(L²) 注意力瓶頸。
他們的新 V3.2 模型引入了 DeepSeek 稀疏注意力 (DSA),這是他們唯一的架構變更。這告訴你這有多重要。
它解決了什麼問題:
標準注意力的計算量是二次的。將上下文長度加倍,計算量就會增加四倍。這就是為什麼長上下文推理的成本迅速上升。
DSA 將複雜度從 O(L²) 降低到 O(Lk),其中 k 是固定的。
它是如何運作的:
一個輕量級的 Lightning Indexer 為每個查詢評分哪些標記實際上是重要的。少量的頭,運行在 FP8,計算成本低。然後一個選擇機制僅檢索前 k 個鍵值條目。
關鍵見解:每個查詢僅選擇 2,048 個標記,無論上下文長度如何。昂貴的注意力計算發生在這個小子集上,而不是完整的 128K 序列上。
更少的注意力,更好的結果。DeepSeek V3.2 剛剛證明了這一點。
結果:
在 128K 上下文下,預填充成本從每百萬個標記約 $0.65 降至約 $0.35。解碼成本從約 $2.4 降至約 $0.8。
而性能呢?保持不變。在一些長上下文基準測試中,V3.2 實際上得分更高。
稀疏注意力並不新鮮。讓它在不損失質量的情況下運作是困難的。
DeepSeek 通過兩階段的訓練過程破解了這一點,首先使用 KL 散度對索引器進行對齊,然後訓練完整模型以適應稀疏模式。
這就是如何在不增加成本的情況下擴展上下文。
...

熱門
排行
收藏

