Я часто використовую профайлер PyTorch Те, що ви бачите тут, - це трасування профілю з 10 передач вперед (10 прогнозів токенів) і крок 0 профілювальника, який говорить мені, що найбільш очевидним вузьким місцем продуктивності є етап попереднього заповнення Я повернуся до цього сліду, щоб порівняти, коли у мене з'явиться швидший спосіб попереднього заповнення