He estado utilizando mucho el perfilador de PyTorch lo que estás viendo aquí es un trazo de perfil de 10 pasadas hacia adelante (10 predicciones de tokens), y el paso 0 del perfilador me dice que el cuello de botella de rendimiento más obvio es la etapa de prellenado Volveré a este trazo para comparar cuando tenga una forma más rápida de prellenar