Đây là sự chú ý nhanh về phía trước: `TestPcontig.test_flash_attention` Không có "fuse" nào xung quanh nó, mẫu hình là rõ ràng từ luồng dữ liệu. Phía sau thiếu hai mẹo: đầu ra của q.grad và k.grad cùng nhau và chọn tái tính toán ma trận điểm thay vì lưu nó.
Khi sự chú ý lùi tự động, hãy tưởng tượng những mẫu khác mà điều này sẽ phát hiện ra. Để tăng tốc, chúng tôi đang làm việc trên một phương pháp giống như thunderkittens, chia mọi thứ thành các ô 16x16. Không còn phải suy nghĩ về "locals," điều mà Triton cung cấp nữa.
Mọi người có biết cách đọc những sơ đồ này không? So với các bài viết có mã, những bài viết này không thu hút nhiều sự chú ý, nhưng tôi thấy sơ đồ dễ suy nghĩ hơn rất nhiều.
11K