L'attenzione a finestra scorrevole (SWA) alimenta modelli ibridi all'avanguardia per l'efficienza. C'è qualcosa di meglio? Presentiamo Phalanx, un sostituto più veloce e di migliore qualità per l'attenzione a finestra scorrevole (SWA). Phalanx è una nuova famiglia di strati finestrati consapevoli dell'hardware e dei numeri, progettati con un focus sulla località dei dati e su finestre irregolari allineate a blocchi che si mappano direttamente alle GPU. Durante l'addestramento, Phalanx offre un throughput end-to-end superiore del 10-40% a lunghezze di contesto da 4K a 32K rispetto agli ibridi SWA ottimizzati e ai Transformers, riducendo la costosa comunicazione inter-warp. Oggi, stiamo rilasciando sia il rapporto tecnico, un blog e i kernel di Phalanx in spear, la nostra libreria di kernel di ricerca. Stiamo assumendo.