Attention cửa sổ trượt (SWA) đang thúc đẩy các mô hình lai tiên tiến để đạt hiệu quả. Có điều gì tốt hơn không? Giới thiệu Phalanx, một sự thay thế nhanh hơn và chất lượng tốt hơn cho attention cửa sổ trượt (SWA). Phalanx là một gia đình mới của các lớp có cửa sổ nhận thức phần cứng và số học, được thiết kế với trọng tâm vào tính địa phương của dữ liệu và các cửa sổ khối không đồng đều, được căn chỉnh khối mà ánh xạ trực tiếp đến GPU. Trong quá trình đào tạo, Phalanx cung cấp thông lượng đầu cuối cao hơn từ 10–40% ở độ dài ngữ cảnh từ 4K–32K so với các mô hình lai SWA tối ưu và Transformers bằng cách giảm thiểu giao tiếp giữa các warp tốn kém. Hôm nay, chúng tôi phát hành cả báo cáo kỹ thuật, một blog, và các kernel Phalanx trong spear, thư viện kernel nghiên cứu của chúng tôi. Chúng tôi đang tuyển dụng.