DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

vLLM

Skalning av MoE-inferens är ofta kommunikations- + KV-cache-gräns: när du driver expertparallellism kan avkodning bli dominerad av kollektiv och obalans, och prefill-eftersläntrare kan stoppa en hel EP-grupp. Nya community-benchmarkresultat för vLLM wide-EP på flernods-H200 (Coreweave, Infiniband + ConnectX-7): - Uthålligt ~2,2k tokens/s per H200 GPU (upp från tidigare ~1,5k tokens/s per GPU) I inlägget delar vi med oss av de viktigaste delarna som möjliggör detta: - Wide-EP ('--enable-expert-parallel') för DeepSeek-stil MoE + MLA KV-effektivitet - DeepEP all-till-alla, Dual-batch Overlap (DBO) och Expert Parallel Load Balancing (EPLB) - Prefill/Decode disaggregeringar och distributionsvägar via LLM-d, NVIDIA Dynamo och Ray Serve LLM

3

vLLM18 dec. 08:29

vLLM levererar ännu mer inferensprestanda med samma GPU-plattform. På bara en månad har vi samarbetat med NVIDIA för att öka @nvidia Blackwells maximala genomströmning per GPU med upp till 33 % – vilket avsevärt minskar kostnaden per token – samtidigt som vi möjliggör ännu högre topphastighet för de mest latenskänsliga användningsområdena som drivs av djup PyTorch-integration och samarbete.

8

vLLM8 dec. 21:18

🎉Grattis till @Zai_org-teamet med lanseringen av GLM-4.6V och GLM-4.6V-Flash — med day-0-serveringsstöd i vLLM-recept för team som vill köra dem på sina egna GPU:er. GLM-4.6V fokuserar på högkvalitativ multimodal resonemang med lång kontext och inbyggd verktygs-/funktionsanrop, medan GLM-4.6V-Flash är en 9B-variant anpassad för lägre latens och mindre användning; vår nya vLLM-recept levererar färdiga konfigurationer, multi-GPU-styrning och produktionsinriktade standardinställningar. Om du bygger inferenstjänster och vill ha GLM-4.6V i din stack, börja här:

Z.ai8 dec. 20:14

GLM-4.6V Series is here🚀 - GLM-4.6V (106B): flagship vision-language model with 128K context - GLM-4.6V-Flash (9B): ultra-fast, lightweight version for local and low-latency workloads First-ever native Function Calling in the GLM vision model family Weights: Try GLM-4.6V now: API: Tech Blog: API Pricing (per 1M tokens): - GLM-4.6V: $0.6 input / $0.9 output - GLM-4.6V-Flash: Free

199

Topp

Rankning

Favoriter

Svenska 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Türkçe

More about OKX Wallet

Ladda ned Learn Om oss Karriär Kontakta oss Användarvillkor Integritetsmeddelande X (tidigare Twitter)

Product

Tokens Swap Marketplace Earn Discover Build Explorer Säkerhet

Support

Supportcenter Kanalverifiering Tillkännagivanden DEX-avgiftsstruktur Anslut med OKX Bitcoin-plånbok Ethereum-plånbok Solana-plånbok