Sliding window attention (SWA) drijft grensverleggende hybride modellen voor efficiëntie. Is er iets beters? Introductie van Phalanx, een snellere en betere kwaliteitsvervanger voor sliding window attention (SWA). Phalanx is een nieuwe familie van hardware- en numerics-bewuste windowed layers, ontworpen met een focus op datalokalisatie en onregelmatige, blok-gealigneerde vensters die direct naar GPU's zijn gemapt. Tijdens de training levert Phalanx 10–40% hogere end-to-end doorvoer bij 4K–32K contextlengtes in vergelijking met geoptimaliseerde SWA-hybrides en Transformers door kostbare inter-warp communicatie te verminderen. Vandaag brengen we zowel het technische rapport, een blog, als Phalanx-kernels uit in spear, onze onderzoeks-kernelbibliotheek. We zijn aan het werven.