Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
🚀16k TPS vLLM:llä B200:lla! Kiitos, että jaoit tämän menestyksen; Se inspiroi yhteisöämme rikkomaan rajoja.

Maziyar PANAHI8.1. klo 01.31
16 000 tokenia sekunnissa! 🤯
En ole KOSKAAN nähnyt näin montaa tokenia elämässäni!!
> nvidia B200 alkuvuodesta
> Trinity Mini Arceelta (26b, moe)
> palvelee vllm (0.13) 8 tensorin rinnakkaisuudella
> lääketieteellisen SYNTH-aineiston generointiputki
> ~350 req/s
> ~16k tps!!
HITTO!

80
Onnittelut @Alibaba_Qwen:lle Qwen-Image-2512:n julkaisusta! 🎉
Olemme innoissamme voidessamme ilmoittaa Day-0-tuesta vLLM-Omnissa. Voit nyt tarjota tämän SOTA:n avoimen lähdekoodin kuvamallin optimoidulla putkistoarkkitehtuurillamme välittömästi.
Lue lisää:
👇 Katso se alta:



Qwen31.12.2025
🎁 Uudenvuoden lahja Qweniltä — Qwen-Image-2512 on täällä.
🚀 Joulukuun päivityksemme Qwen-Imageen, juuri sopivasti uuteen vuoteen.
✨ Mitä uutta:
• Realistisemmat ihmiset — dramaattisesti vähennetty "tekoälyn ulkonäkö", rikkaammat kasvonpiirteet
• Hienommat luonnontekstuurit — terävämmät maisemat, vesi, turkki ja materiaalit
• Vahvempi tekstin renderöinti — parempi asettelu, parempi tarkkuus teksti–kuva-sommittelussa
🏆 Testattu 10 000+ sokkokierroksella AI Arenalla, Qwen-Image-2512 on vahvin avoimen lähdekoodin kuvamalli, mutta pysyy kilpailukykyisenä suljetun lähdekoodin järjestelmien kanssa.
👉 Kokeile nyt Qwen Chatissa:
🤗 Halauskasvot:
📦 ModelScope:
💻 GitHub:
📝 Blogi:
🤗 Halauskasvojen esittely:
📦 ModelScope-demo:
✨API:
🎆 Aloita uusi vuosi paremmilla kuvilla.
256
MoE-päättelyjen skaalaaminen on usein sidottu viestintään + KV-välimuistiin: kun painat asiantuntijaparallelismia, dekoodaus voi joutua kollektiivien ja epätasapainon hallitsemaksi, ja prefill-jälkikäteen jääneet ryhmät voivat pysäyttää kokonaisen EP-ryhmän.
Uusia yhteisön vertailutuloksia vLLM:n laaja-EP:lle monisolmuisella H200:lla (Coreweave, Infiniband + ConnectX-7):
- Jatkuva ~2,2k tokenia/s per H200 GPU (nousua aiemmasta ~1,5k tokenista/s per GPU)
Kirjoituksessa jaamme keskeiset osat, jotka mahdollistavat tämän:
- Wide-EP ('-enable-expert-parallel') DeepSeek-tyyliseen MoE + MLA KV -tehokkuuteen
- DeepEP all-to-all, Dual-Batch Overlap (DBO) ja Expert Parallel Load Balancing (EPLB)
- Esitäyttö/dekoodauksen ja käyttöönottopolut llm-d:n, NVIDIA Dynamon ja Ray Serve LLM:n kautta
390
Johtavat
Rankkaus
Suosikit
