Am folosit mult profilerul PyTorch Ceea ce vedeți aici este o urmă de profil de 10 pase înainte (10 predicții de token) și pasul 0 al profilului care îmi spune că cel mai evident blocaj de performanță este etapa de preumplere Voi reveni la această urmă pentru a compara când am o modalitate mai rapidă de a preumple