Uwaga z przesuwanym oknem (SWA) napędza nowoczesne modele hybrydowe dla efektywności. Czy jest coś lepszego? Przedstawiamy Phalanx, szybszy i lepszej jakości zamiennik dla uwagi z przesuwanym oknem (SWA). Phalanx to nowa rodzina warstw okienkowych, świadomych sprzętu i numerów, zaprojektowanych z myślą o lokalności danych oraz postrzępionych, wyrównanych blokowo oknach, które bezpośrednio mapują się na GPU. W trakcie treningu, Phalanx zapewnia 10–40% wyższą przepustowość end-to-end przy długościach kontekstu 4K–32K w porównaniu do zoptymalizowanych hybryd SWA i Transformerów, redukując kosztowną komunikację między warpami. Dziś publikujemy zarówno raport techniczny, bloga, jak i jądra Phalanx w spear, naszej bibliotece jąder badawczych. Rekrutujemy.