Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Herzlichen Glückwunsch an @Alibaba_Qwen zur Veröffentlichung von Qwen-Image-2512! 🎉
Wir freuen uns, die Unterstützung ab Tag 0 in vLLM-Omni bekannt zu geben. Sie können dieses SOTA Open-Source-Bildmodell jetzt sofort mit unserer optimierten Pipeline-Architektur bereitstellen.
Erfahren Sie mehr:
👇 Sehen Sie es unten in Aktion:



Qwen31. Dez. 2025
🎁 Ein Neujahrsgeschenk von Qwen – Qwen-Image-2512 ist hier.
🚀 Unser Dezember-Upgrade für Qwen-Image, pünktlich zum Neujahr.
✨ Was ist neu:
• Realistischere Menschen – dramatisch reduzierter „AI-Look“, reichhaltigere Gesichtsdetails
• Feinere natürliche Texturen – schärfere Landschaften, Wasser, Fell und Materialien
• Stärkeres Text-Rendering – bessere Anordnung, höhere Genauigkeit in der Text-Bild-Komposition
🏆 Getestet in über 10.000 Blindrunden auf AI Arena, rangiert Qwen-Image-2512 als das stärkste Open-Source-Bildmodell und bleibt dabei wettbewerbsfähig mit Closed-Source-Systemen.
👉 Probier es jetzt im Qwen Chat aus:
🤗 Hugging Face:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Hugging Face Demo:
📦 ModelScope Demo:
✨API:
🎆 Starte das neue Jahr mit besseren Bildern.
77
Die Skalierung der MoE-Inferenz ist oft durch Kommunikation + KV-Cache begrenzt: Sobald Sie die Expertenparallelität vorantreiben, kann das Decodieren von Kollektiven und Ungleichgewichten dominiert werden, und Prefill-Stragglers können eine gesamte EP-Gruppe zum Stillstand bringen.
Neue Benchmark-Ergebnisse der Community für vLLM Wide-EP auf Multi-Node H200 (Coreweave, Infiniband + ConnectX-7):
- Nachhaltige ~2,2k Tokens/s pro H200 GPU (im Vergleich zu früheren ~1,5k Tokens/s pro GPU)
In dem Beitrag teilen wir die Schlüsselfaktoren, die dies ermöglichen:
- Wide-EP (`--enable-expert-parallel`) für DeepSeek-Style MoE + MLA KV-Effizienz
- DeepEP All-to-All, Dual-Batch-Überlappung (DBO) und Expert Parallel Load Balancing (EPLB)
- Prefill/Decode-Dissaggregation und Bereitstellungspfade über llm-d, NVIDIA Dynamo und Ray Serve LLM
259
vLLM bietet mit derselben GPU-Plattform noch mehr Inferenzleistung.
In nur 1 Monat haben wir mit NVIDIA zusammengearbeitet, um den maximalen Durchsatz pro GPU von @nvidia Blackwell um bis zu 33 % zu steigern – was die Kosten pro Token erheblich senkt – und gleichzeitig eine noch höhere Spitzenleistung für die latenzsensibelsten Anwendungsfälle zu ermöglichen, die durch eine tiefe PyTorch-Integration und Zusammenarbeit unterstützt werden.

288
Top
Ranking
Favoriten
