热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
滑动窗口注意力(SWA)正在为前沿混合模型提供高效支持。有没有更好的选择?
介绍Phalanx,一种更快、更高质量的滑动窗口注意力(SWA)替代品。
Phalanx是一种新的硬件和数值感知窗口层系列,专注于数据局部性和不规则的、块对齐的窗口,能够直接映射到GPU上。
在训练中,Phalanx在4K–32K上下文长度下,相比优化过的SWA混合模型和变换器,提供了10%–40%的端到端吞吐量提升,减少了昂贵的跨warp通信。
今天,我们发布了技术报告、博客以及Phalanx内核,作为我们的研究内核库spear的一部分。
我们正在招聘。

热门
排行
收藏