Tôi đã sử dụng profiler PyTorch rất nhiều những gì bạn thấy ở đây là một bản theo dõi hồ sơ của 10 lần truyền tiến (10 dự đoán token), và bước profiler 0 cho tôi biết rằng nút thắt cổ chai hiệu suất rõ ràng nhất là giai đoạn prefill Tôi sẽ quay lại với bản theo dõi này để so sánh khi tôi có một cách nhanh hơn để prefill