He estado usando mucho el generador de perfiles de PyTorch Lo que está viendo aquí es un seguimiento de perfil de 10 pasadas hacia adelante (10 predicciones de tokens) y el paso 0 del generador de perfiles que me dice que el cuello de botella de rendimiento más obvio es la etapa de prellenado Volveré a este rastro para comparar cuando tenga una forma más rápida de rellenar previamente