DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

vLLM

🚀16k TPS met vLLM op B200! Bedankt voor het delen van dit succes; het inspireert onze gemeenschap om grenzen te verleggen.

Maziyar PANAHI8 jan, 01:31

16k tokens per seconde! 🤯 ik heb NOOIT zoveel tokens in mijn leven gezien!!! > nvidia B200 van prime > trinity mini van arcee (26b, moe) > geserveerd door vllm (0.13) met 8 tensors parallelisme > medische SYNTH dataset generatie pijplijn > ~350 req/s > ~16k tps!!! VERDOMME!

vLLM31 dec 2025

Gefeliciteerd @Alibaba_Qwen met de release van Qwen-Image-2512! 🎉 We zijn verheugd om Day-0 ondersteuning in vLLM-Omni aan te kondigen. Je kunt dit SOTA open-source afbeeldingsmodel nu onmiddellijk bedienen met onze geoptimaliseerde pipelined architectuur. Lees meer: 👇 Zie het hieronder draaien:

Qwen31 dec 2025

🎁 Een nieuwjaarsgeschenk van Qwen — Qwen-Image-2512 is hier. 🚀 Onze decemberupgrade naar Qwen-Image, net op tijd voor het nieuwe jaar. ✨ Wat is nieuw: • Meer realistische mensen — dramatisch verminderde "AI-uitstraling," rijkere gezichtsdetails • Fijnere natuurlijke texturen — scherpere landschappen, water, vacht en materialen • Sterkere tekstweergave — betere lay-out, hogere nauwkeurigheid in tekst–afbeelding compositie 🏆 Getest in 10.000+ blinde rondes op AI Arena, Qwen-Image-2512 staat als de sterkste open-source afbeeldingsmodel, terwijl het concurrerend blijft met gesloten-source systemen. 👉 Probeer het nu in Qwen Chat: 🤗 Hugging Face: 📦 ModelScope: 💻 GitHub: 📝 Blog: 🤗 Hugging Face Demo: 📦 ModelScope Demo: ✨API: 🎆 Begin het nieuwe jaar met betere afbeeldingen.

178

vLLM19 dec 2025

Het schalen van MoE-inferentie is vaak communicatie + KV-cache gebonden: zodra je expert-parallelisme toepast, kan decoderen gedomineerd worden door collectieven en onevenwichtigheid, en kunnen prefill-stragglers een hele EP-groep stilleggen. Nieuwe community benchmarkresultaten voor vLLM wide-EP op multi-node H200 (Coreweave, Infiniband + ConnectX-7): - Duurzaam ~2.2k tokens/s per H200 GPU (stijging van eerder ~1.5k tokens/s per GPU) In de post delen we de belangrijkste onderdelen die dit mogelijk maken: - Wide-EP (`--enable-expert-parallel`) voor DeepSeek-stijl MoE + MLA KV-efficiëntie - DeepEP all-to-all, Dual-batch Overlap (DBO) en Expert Parallel Load Balancing (EPLB) - Prefill/Decode ontkoppeling en implementatiepaden via llm-d, NVIDIA Dynamo en Ray Serve LLM

355

Boven

Positie

Favorieten

Nederlands 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Meer over OKX Web3

Downloaden Learn Over ons Vacatures Contact Servicevoorwaarden Privacyverklaring X (voorheen Twitter)

Product

Dashboard wallet Swap Marktplaats Earn Ontdekken Samenstellen Verkenner Beveiliging

Ondersteuning

Ondersteuningscentrum Kanaalverificatie Aankondigingen DEX-vergoedingsschema Contact met OKX Bitcoin-wallet Ethereum-wallet Solana-wallet