一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

vLLM 在相同的 GPU 平台上提供了更高的推理性能。仅在一个月内，我们与 NVIDIA 合作，将 @nvidia Blackwell 每个 GPU 的最大吞吐量提高了多达 33% -- 显著降低了每个 token 的成本 -- 同时还为最敏感延迟的用例提供了更高的峰值速度，这得益于深度 PyTorch 的集成和合作。