一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

滑動窗口注意力（SWA）正在為前沿混合模型提供效率。還有更好的選擇嗎？介紹 Phalanx，一個更快且更高品質的滑動窗口注意力（SWA）替代品。 Phalanx 是一個新的硬體和數值感知窗口層系列，專注於數據局部性和不規則的、塊對齊的窗口，這些窗口可以直接映射到 GPU。在訓練中，Phalanx 在 4K–32K 上下文長度下，提供比優化的 SWA 混合模型和 Transformers 高出 10–40% 的端到端吞吐量，通過減少昂貴的跨 warp 通信來實現。今天，我們發布了技術報告、博客以及 Phalanx 核心，這些都在我們的研究核心庫 spear 中。我們正在招聘。