滑动窗口注意力(SWA)正在为前沿混合模型提供高效支持。有没有更好的选择? 介绍Phalanx,一种更快、更高质量的滑动窗口注意力(SWA)替代品。 Phalanx是一种新的硬件和数值感知窗口层系列,专注于数据局部性和不规则的、块对齐的窗口,能够直接映射到GPU上。 在训练中,Phalanx在4K–32K上下文长度下,相比优化过的SWA混合模型和变换器,提供了10%–40%的端到端吞吐量提升,减少了昂贵的跨warp通信。 今天,我们发布了技术报告、博客以及Phalanx内核,作为我们的研究内核库spear的一部分。 我们正在招聘。