vLLM 在相同的 GPU 平台上提供了更高的推理性能。 仅在一个月内,我们与 NVIDIA 合作,将 @nvidia Blackwell 每个 GPU 的最大吞吐量提高了多达 33% -- 显著降低了每个 token 的成本 -- 同时还为最敏感延迟的用例提供了更高的峰值速度,这得益于深度 PyTorch 的集成和合作。