滑動窗口注意力(SWA)正在為前沿混合模型提供效率。還有更好的選擇嗎? 介紹 Phalanx,一個更快且更高品質的滑動窗口注意力(SWA)替代品。 Phalanx 是一個新的硬體和數值感知窗口層系列,專注於數據局部性和不規則的、塊對齊的窗口,這些窗口可以直接映射到 GPU。 在訓練中,Phalanx 在 4K–32K 上下文長度下,提供比優化的 SWA 混合模型和 Transformers 高出 10–40% 的端到端吞吐量,通過減少昂貴的跨 warp 通信來實現。 今天,我們發布了技術報告、博客以及 Phalanx 核心,這些都在我們的研究核心庫 spear 中。 我們正在招聘。