Tenho usado muito o criador de perfil PyTorch O que você está vendo aqui é um rastreamento de perfil de 10 passes para frente (10 previsões de token) e a etapa 0 do criador de perfil me dizendo que o gargalo de desempenho mais óbvio é o estágio de preenchimento prévio Voltarei a este rastreamento para comparar quando tiver uma maneira mais rápida de preencher previamente