A atenção da janela deslizante (SWA) está alimentando os modelos híbridos de fronteira para eficiência. Existe algo melhor? Apresentando o Phalanx, um substituto mais rápido e de melhor qualidade para a atenção da janela deslizante (SWA). Phalanx é uma nova família de camadas de janelas com reconhecimento de hardware e numérico projetadas com foco na localidade de dados e janelas irregulares e alinhadas a blocos que mapeiam diretamente para GPUs. No treinamento, o Phalanx oferece taxa de transferência de ponta a ponta 10 a 40% maior em comprimentos de contexto de 4K a 32K em relação a híbridos SWA e Transformers otimizados, reduzindo a dispendiosa comunicação entre dobras. Hoje, estamos lançando o relatório técnico, um blog e os kernels Phalanx no spear, nossa biblioteca de kernel de pesquisa. Estamos contratando.