一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

滑动窗口注意力（SWA）正在为前沿混合模型提供高效支持。有没有更好的选择？介绍Phalanx，一种更快、更高质量的滑动窗口注意力（SWA）替代品。 Phalanx是一种新的硬件和数值感知窗口层系列，专注于数据局部性和不规则的、块对齐的窗口，能够直接映射到GPU上。在训练中，Phalanx在4K–32K上下文长度下，相比优化过的SWA混合模型和变换器，提供了10%–40%的端到端吞吐量提升，减少了昂贵的跨warp通信。今天，我们发布了技术报告、博客以及Phalanx内核，作为我们的研究内核库spear的一部分。我们正在招聘。