Ich habe den PyTorch Profiler viel verwendet was Sie hier sehen, ist ein Profil-Trace von 10 Vorwärtsdurchläufen (10 Token-Vorhersagen), und Profiler-Schritt 0 sagt mir, dass der offensichtlichste Leistungsengpass die Prefill-Phase ist Ich werde zu diesem Trace zurückkommen, um zu vergleichen, wenn ich eine schnellere Möglichkeit habe, die Prefill-Phase durchzuführen