熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
滑動窗口注意力(SWA)正在為前沿混合模型提供效率。還有更好的選擇嗎?
介紹 Phalanx,一個更快且更高品質的滑動窗口注意力(SWA)替代品。
Phalanx 是一個新的硬體和數值感知窗口層系列,專注於數據局部性和不規則的、塊對齊的窗口,這些窗口可以直接映射到 GPU。
在訓練中,Phalanx 在 4K–32K 上下文長度下,提供比優化的 SWA 混合模型和 Transformers 高出 10–40% 的端到端吞吐量,通過減少昂貴的跨 warp 通信來實現。
今天,我們發布了技術報告、博客以及 Phalanx 核心,這些都在我們的研究核心庫 spear 中。
我們正在招聘。

熱門
排行
收藏