Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
🚀16k TPS met vLLM op B200! Bedankt voor het delen van dit succes; het inspireert onze gemeenschap om grenzen te verleggen.

Maziyar PANAHI8 jan, 01:31
16k tokens per seconde! 🤯
ik heb NOOIT zoveel tokens in mijn leven gezien!!!
> nvidia B200 van prime
> trinity mini van arcee (26b, moe)
> geserveerd door vllm (0.13) met 8 tensors parallelisme
> medische SYNTH dataset generatie pijplijn
> ~350 req/s
> ~16k tps!!!
VERDOMME!

Gefeliciteerd @Alibaba_Qwen met de release van Qwen-Image-2512! 🎉
We zijn verheugd om Day-0 ondersteuning in vLLM-Omni aan te kondigen. Je kunt dit SOTA open-source afbeeldingsmodel nu onmiddellijk bedienen met onze geoptimaliseerde pipelined architectuur.
Lees meer:
👇 Zie het hieronder draaien:



Qwen31 dec 2025
🎁 Een nieuwjaarsgeschenk van Qwen — Qwen-Image-2512 is hier.
🚀 Onze decemberupgrade naar Qwen-Image, net op tijd voor het nieuwe jaar.
✨ Wat is nieuw:
• Meer realistische mensen — dramatisch verminderde "AI-uitstraling," rijkere gezichtsdetails
• Fijnere natuurlijke texturen — scherpere landschappen, water, vacht en materialen
• Sterkere tekstweergave — betere lay-out, hogere nauwkeurigheid in tekst–afbeelding compositie
🏆 Getest in 10.000+ blinde rondes op AI Arena, Qwen-Image-2512 staat als de sterkste open-source afbeeldingsmodel, terwijl het concurrerend blijft met gesloten-source systemen.
👉 Probeer het nu in Qwen Chat:
🤗 Hugging Face:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Hugging Face Demo:
📦 ModelScope Demo:
✨API:
🎆 Begin het nieuwe jaar met betere afbeeldingen.
178
Het schalen van MoE-inferentie is vaak communicatie + KV-cache gebonden: zodra je expert-parallelisme toepast, kan decoderen gedomineerd worden door collectieven en onevenwichtigheid, en kunnen prefill-stragglers een hele EP-groep stilleggen.
Nieuwe community benchmarkresultaten voor vLLM wide-EP op multi-node H200 (Coreweave, Infiniband + ConnectX-7):
- Duurzaam ~2.2k tokens/s per H200 GPU (stijging van eerder ~1.5k tokens/s per GPU)
In de post delen we de belangrijkste onderdelen die dit mogelijk maken:
- Wide-EP (`--enable-expert-parallel`) voor DeepSeek-stijl MoE + MLA KV-efficiëntie
- DeepEP all-to-all, Dual-batch Overlap (DBO) en Expert Parallel Load Balancing (EPLB)
- Prefill/Decode ontkoppeling en implementatiepaden via llm-d, NVIDIA Dynamo en Ray Serve LLM
355
Boven
Positie
Favorieten
