vLLM leverer enda mer inferensytelse med samme GPU-plattform. På bare én måned har vi samarbeidet med NVIDIA for å øke Blackwells maksimale gjennomstrømning per GPU med opptil 33 % @nvidia – noe som reduserer kostnaden per token betydelig – samtidig som vi muliggjør enda høyere topphastighet for de mest latensfølsomme bruksområdene, drevet av dyp PyTorch-integrasjon og samarbeid.