私はPyTorchプロファイラーをたくさん使っています ここに表示されているのは、10 回のフォワード パス (10 回のトークン予測) のプロファイル トレースと、最も明白なパフォーマンスのボトルネックがプレフィル ステージであることを示すプロファイラーのステップ 0 です このトレースに戻って、プリフィルするより速い方法があるかどうかを比較します