Tenho usado muito o profiler do PyTorch o que você está vendo aqui é um traço de perfil de 10 passes para frente (10 previsões de tokens), e o passo 0 do profiler me dizendo que o gargalo de desempenho mais óbvio é a fase de pré-preenchimento Voltarei a este traço para comparar quando tiver uma maneira mais rápida de pré-preencher