Skalning av MoE-inferens är ofta kommunikations- + KV-cache-gräns: när du driver expertparallellism kan avkodning bli dominerad av kollektiv och obalans, och prefill-eftersläntrare kan stoppa en hel EP-grupp.
Nya community-benchmarkresultat för vLLM wide-EP på flernods-H200 (Coreweave, Infiniband + ConnectX-7):
- Uthålligt ~2,2k tokens/s per H200 GPU (upp från tidigare ~1,5k tokens/s per GPU)
I inlägget delar vi med oss av de viktigaste delarna som möjliggör detta:
- Wide-EP ('--enable-expert-parallel') för DeepSeek-stil MoE + MLA KV-effektivitet
- DeepEP all-till-alla, Dual-batch Overlap (DBO) och Expert Parallel Load Balancing (EPLB)
- Prefill/Decode disaggregeringar och distributionsvägar via LLM-d, NVIDIA Dynamo och Ray Serve LLM
vLLM levererar ännu mer inferensprestanda med samma GPU-plattform.
På bara en månad har vi samarbetat med NVIDIA för att öka @nvidia Blackwells maximala genomströmning per GPU med upp till 33 % – vilket avsevärt minskar kostnaden per token – samtidigt som vi möjliggör ännu högre topphastighet för de mest latenskänsliga användningsområdena som drivs av djup PyTorch-integration och samarbete.
🎉Grattis till @Zai_org-teamet med lanseringen av GLM-4.6V och GLM-4.6V-Flash — med day-0-serveringsstöd i vLLM-recept för team som vill köra dem på sina egna GPU:er.
GLM-4.6V fokuserar på högkvalitativ multimodal resonemang med lång kontext och inbyggd verktygs-/funktionsanrop, medan GLM-4.6V-Flash är en 9B-variant anpassad för lägre latens och mindre användning; vår nya vLLM-recept levererar färdiga konfigurationer, multi-GPU-styrning och produktionsinriktade standardinställningar.
Om du bygger inferenstjänster och vill ha GLM-4.6V i din stack, börja här:
GLM-4.6V Series is here🚀
- GLM-4.6V (106B): flagship vision-language model with 128K context
- GLM-4.6V-Flash (9B): ultra-fast, lightweight version for local and low-latency workloads
First-ever native Function Calling in the GLM vision model family
Weights:
Try GLM-4.6V now:
API:
Tech Blog:
API Pricing (per 1M tokens):
- GLM-4.6V: $0.6 input / $0.9 output
- GLM-4.6V-Flash: Free