これはフラッシュアテンションフォワードです: 'TestPcontig.test_flash_attention' 周囲に「ヒューズ」すらなく、パターンはデータフローから明らかです。 Backwardには、q.gradとk.gradを一緒に出力することと、スコアマトリックスを保存する代わりに再計算することを選択するという2つのトリックが欠けています。
後方フラッシュアテンションが自動的になったら、これが発見する他のパターンを想像してみてください。 スピードについては、すべてを 16x16 のタイルに分割するサンダーキトンのようなパスに取り組んでいます。トリトンの提供でもある「地元の人々」についての推論はもう必要ありません。
人々はこれらの図の読み方を知っていますか?コード付きの投稿と比較すると、これらの投稿はあまり注目を集めませんが、図の方がはるかに考えやすいと思います。
10.36K