Ceci est l'attention flash en avant : `TestPcontig.test_flash_attention` Il n'y a même pas de "fuse" autour, le motif est évident à partir du flux de données. L'arrière est manquant de deux astuces : la sortie de q.grad et k.grad ensemble et le choix de recomputer la matrice de score au lieu de la sauvegarder.
Une fois que l'attention par flash inversé est automatique, imaginez les autres motifs que cela va découvrir. Pour la vitesse, nous travaillons sur un passage similaire à thunderkittens qui divise tout en tuiles de 16x16. Plus besoin de raisonner sur les "locaux," ce qui est l'offre de Triton.
Les gens savent-ils lire ces diagrammes ? Comparés aux publications avec du code, ces publications n'attirent pas beaucoup d'attention, mais je trouve le diagramme beaucoup plus facile à comprendre.
11K