Saya telah banyak menggunakan profiler PyTorch Apa yang Anda lihat di sini adalah pelacakan profil dari 10 umpan maju (10 prediksi token), dan langkah profiler 0 memberi tahu saya bahwa kemacetan kinerja yang paling jelas adalah tahap pengisian awal Saya akan kembali ke jejak ini untuk membandingkan ketika saya memiliki cara yang lebih cepat untuk mengisi awal