Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Gratulacje dla @Alibaba_Qwen z okazji wydania Qwen-Image-2512! 🎉
Z radością ogłaszamy wsparcie Day-0 w vLLM-Omni. Możesz teraz natychmiast korzystać z tego modelu obrazu SOTA open-source z naszą zoptymalizowaną architekturą pipeline.
Czytaj więcej:
👇 Zobacz, jak działa poniżej:



Qwen31 gru 2025
🎁 Prezent noworoczny od Qwen — Qwen-Image-2512 jest tutaj.
🚀 Nasza grudniowa aktualizacja do Qwen-Image, tuż na czas na Nowy Rok.
✨ Co nowego:
• Bardziej realistyczni ludzie — dramatycznie zmniejszone „wygląd AI”, bogatsze szczegóły twarzy
• Finer naturalne tekstury — ostrzejsze krajobrazy, woda, futro i materiały
• Silniejsze renderowanie tekstu — lepszy układ, wyższa dokładność w kompozycji tekst–obraz
🏆 Testowane w ponad 10 000 ślepych rundach na AI Arena, Qwen-Image-2512 zajmuje pierwsze miejsce jako najsilniejszy model obrazu open-source, pozostając konkurencyjnym w stosunku do systemów closed-source.
👉 Wypróbuj to teraz w Qwen Chat:
🤗 Hugging Face:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Demo Hugging Face:
📦 Demo ModelScope:
✨ API:
🎆 Rozpocznij Nowy Rok z lepszymi obrazami.
60
Skalowanie wnioskowania MoE często jest ograniczone przez komunikację + pamięć podręczną KV: gdy tylko zwiększysz równoległość ekspertów, dekodowanie może być zdominowane przez operacje zbiorcze i nierównowagę, a opóźnienia w wypełnianiu mogą zablokować całą grupę EP.
Nowe wyniki benchmarków społeczności dla vLLM wide-EP na wielowęzłowym H200 (Coreweave, Infiniband + ConnectX-7):
- Utrzymane ~2,2k tokenów/s na GPU H200 (wzrost z wcześniejszych ~1,5k tokenów/s na GPU)
W poście dzielimy się kluczowymi elementami, które to umożliwiają:
- Wide-EP (`--enable-expert-parallel`) dla efektywności MoE w stylu DeepSeek + MLA KV
- DeepEP all-to-all, Dual-batch Overlap (DBO) i Równoważenie obciążenia równoległych ekspertów (EPLB)
- Rozdzielenie wypełniania/dekodowania i ścieżki wdrożeniowe za pomocą llm-d, NVIDIA Dynamo i Ray Serve LLM
242
vLLM dostarcza jeszcze lepszą wydajność wnioskowania na tej samej platformie GPU.
W zaledwie 1 miesiąc, współpracowaliśmy z NVIDIA, aby zwiększyć maksymalną przepustowość @nvidia Blackwell na GPU o nawet 33% -- znacznie obniżając koszt na token -- jednocześnie umożliwiając jeszcze wyższą prędkość szczytową dla najbardziej wrażliwych na opóźnienia zastosowań, wspieranych przez głęboką integrację PyTorch i współpracę.

274
Najlepsze
Ranking
Ulubione
