Dużo korzystałem z profilu PyTorch to, co widzisz tutaj, to ślad profilu 10 przejść do przodu (10 prognoz tokenów), a krok profilu 0 mówi mi, że najbardziej oczywistym wąskim gardłem wydajności jest etap wstępnego wypełniania Wrócę do tego śladu, aby porównać, gdy będę miał szybszy sposób na wstępne wypełnienie