La atención de ventana deslizante (SWA) está impulsando modelos híbridos de vanguardia para la eficiencia. ¿Hay algo mejor? Presentamos Phalanx, un reemplazo más rápido y de mejor calidad para la atención de ventana deslizante (SWA). Phalanx es una nueva familia de capas con ventanas conscientes del hardware y los números, diseñadas con un enfoque en la localidad de datos y ventanas desiguales alineadas en bloques que se mapean directamente a las GPU. En el entrenamiento, Phalanx ofrece un rendimiento de extremo a extremo de un 10–40% más alto en longitudes de contexto de 4K–32K en comparación con los híbridos SWA optimizados y los Transformers, al reducir la costosa comunicación inter-warp. Hoy, estamos lanzando tanto el informe técnico, un blog, como los núcleos de Phalanx en spear, nuestra biblioteca de núcleos de investigación. Estamos contratando.