A atenção de janela deslizante (SWA) está impulsionando modelos híbridos de fronteira para eficiência. Existe algo melhor? Apresentando o Phalanx, um substituto mais rápido e de melhor qualidade para a atenção de janela deslizante (SWA). Phalanx é uma nova família de camadas com janelas conscientes de hardware e numéricos, projetadas com foco na localidade de dados e janelas irregulares, alinhadas em blocos, que se mapeiam diretamente para GPUs. Durante o treinamento, o Phalanx oferece um throughput de ponta a ponta 10–40% mais alto em comprimentos de contexto de 4K–32K em relação a híbridos SWA otimizados e Transformers, reduzindo a comunicação inter-warp dispendiosa. Hoje, estamos lançando tanto o relatório técnico, um blog, quanto os núcleos do Phalanx no spear, nossa biblioteca de núcleos de pesquisa. Estamos contratando.