Dit is flash attention forward: `TestPcontig.test_flash_attention` Er is zelfs geen "fuse" omheen, het patroon is duidelijk uit de dataflow. Backward mist twee trucs: de output van q.grad en k.grad samen en kiezen om de scorematrix opnieuw te berekenen in plaats van deze op te slaan.
Zodra de achterwaartse flitsaandacht automatisch is, stel je dan de andere patronen voor die dit zal ontdekken. Voor snelheid werken we aan een thunderkittens-achtige pass die alles opsplitst in 16x16 tegels. Geen reden meer om over "locals" na te denken, wat Triton's aanbod is.
Weten mensen hoe ze deze diagrammen moeten lezen? In vergelijking met de berichten met code krijgen deze berichten niet veel aandacht, maar ik vind het diagram veel gemakkelijker om over na te denken.
11K