我最近經常使用 PyTorch profiler 你在這裡看到的是 10 次前向傳遞(10 次標記預測)的分析追蹤,profiler 步驟 0 告訴我最明顯的性能瓶頸是預填階段 當我有更快的預填方法時,我會回來比較這個追蹤