Ik heb de PyTorch-profiler veel gebruikt wat je hier ziet is een profieltrace van 10 forward passes (10 tokenvoorspellingen), en profiler stap 0 die me vertelt dat de meest voor de hand liggende prestatieknelpunt de prefill-fase is Ik kom terug op deze trace om te vergelijken wanneer ik een snellere manier heb om te prefillen