Dies ist die Flash-Attention-Vorwärtsrichtung: `TestPcontig.test_flash_attention` Es gibt nicht einmal eine "Fuse" darum, das Muster ist offensichtlich aus dem Datenfluss. Rückwärts fehlen zwei Tricks: die Ausgabe von q.grad und k.grad zusammen und die Entscheidung, die Score-Matrix neu zu berechnen, anstatt sie zu speichern.
Sobald die rückwärts gerichtete Blitzaufmerksamkeit automatisch ist, stellen Sie sich die anderen Muster vor, die dies entdecken wird. Für die Geschwindigkeit arbeiten wir an einem thunderkittens-ähnlichen Durchgang, der alles in 16x16 Kacheln aufteilt. Kein weiteres Nachdenken über "locals", was Tritons Angebot ist.
Wissen die Leute, wie man diese Diagramme liest? Im Vergleich zu den Beiträgen mit Code erhalten diese Beiträge nicht viel Aufmerksamkeit, aber ich finde das Diagramm viel einfacher zu verstehen.
10,78K