Questa è l'attenzione flash in avanti: `TestPcontig.test_flash_attention` Non c'è nemmeno un "fuse" attorno, il modello è ovvio dal flusso dei dati. Il retro è privo di due trucchi: l'output di q.grad e k.grad insieme e la scelta di ricalcolare la matrice dei punteggi invece di salvarla.
Una volta che l'attenzione flash all'indietro è automatica, immagina gli altri schemi che scoprirà. Per velocità, stiamo lavorando a un pass simile a thunderkittens che suddivide tutto in tessere 16x16. Niente più ragionamenti sui "locali," che è l'offerta di Triton.
Le persone sanno come leggere questi diagrammi? Rispetto ai post con codice, questi post non ottengono molta attenzione, ma trovo il diagramma molto più facile da comprendere.
10,36K