我一直在大量使用 PyTorch profiler 你在这里看到的是 10 次前向传递(10 次令牌预测)的性能跟踪,profiler 步骤 0 告诉我,最明显的性能瓶颈是预填充阶段 当我有更快的预填充方法时,我会回到这个跟踪进行比较