Я много использовал профайлер PyTorch то, что вы видите здесь, это трассировка профиля 10 прямых проходов (10 предсказаний токенов), и шаг профайлера 0 говорит мне, что самым очевидным узким местом производительности является этап предварительного заполнения Я вернусь к этой трассировке, чтобы сравнить, когда у меня будет более быстрый способ предварительного заполнения