Ho usato molto il profiler di PyTorch quello che vedi qui è una traccia di profilo di 10 passaggi in avanti (10 previsioni di token), e il passo 0 del profiler mi dice che il collo di bottiglia delle prestazioni più evidente è la fase di prefill Tornerò su questa traccia per confrontare quando avrò un modo più veloce per prefill