vLLM dostarcza jeszcze lepszą wydajność wnioskowania na tej samej platformie GPU. W zaledwie 1 miesiąc, współpracowaliśmy z NVIDIA, aby zwiększyć maksymalną przepustowość @nvidia Blackwell na GPU o nawet 33% -- znacznie obniżając koszt na token -- jednocześnie umożliwiając jeszcze wyższą prędkość szczytową dla najbardziej wrażliwych na opóźnienia zastosowań, wspieranych przez głęboką integrację PyTorch i współpracę.