J'ai beaucoup utilisé le profileur PyTorch ce que vous voyez ici est un profil de trace de 10 passes avant (10 prédictions de tokens), et l'étape 0 du profileur me dit que le goulet d'étranglement de performance le plus évident est la phase de pré-remplissage Je reviendrai sur cette trace pour comparer quand j'aurai une méthode plus rapide pour pré-remplir