Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Parabéns ao @Alibaba_Qwen pelo lançamento do Qwen-Image-2512! 🎉
Estamos entusiasmados em anunciar o suporte Day-0 no vLLM-Omni. Agora você pode servir este modelo de imagem open-source SOTA com a nossa arquitetura otimizada em pipeline imediatamente.
Leia mais:
👇 Veja-o em funcionamento abaixo:



Qwen31/12/2025
🎁 Um presente de Ano Novo da Qwen — Qwen-Image-2512 está aqui.
🚀 Nossa atualização de dezembro para o Qwen-Image, bem a tempo para o Ano Novo.
✨ O que há de novo:
• Humanos mais realistas — “aparência de IA” dramaticamente reduzida, detalhes faciais mais ricos
• Texturas naturais mais finas — paisagens, água, pelagem e materiais mais nítidos
• Renderização de texto mais forte — melhor layout, maior precisão na composição texto-imagem
🏆 Testado em mais de 10.000 rodadas cegas na AI Arena, o Qwen-Image-2512 se classifica como o modelo de imagem de código aberto mais forte, enquanto se mantém competitivo com sistemas de código fechado.
👉 Experimente agora no Qwen Chat:
🤗 Hugging Face:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Demonstração do Hugging Face:
📦 Demonstração do ModelScope:
✨ API:
🎆 Comece o Ano Novo com imagens melhores.
71
A escalabilidade da inferência MoE é frequentemente limitada pela comunicação + KV-cache: uma vez que você empurra o paralelismo de especialistas, a decodificação pode ser dominada por coletivas e desequilíbrios, e os estranguladores de pré-preenchimento podem paralisar todo um grupo de EP.
Novos resultados de benchmark da comunidade para vLLM wide-EP em H200 multi-nóde (Coreweave, Infiniband + ConnectX-7):
- Sustentado ~2.2k tokens/s por GPU H200 (aumentando de ~1.5k tokens/s por GPU anteriormente)
No post, compartilhamos as peças-chave que possibilitam isso:
- Wide-EP (`--enable-expert-parallel`) para eficiência de MoE estilo DeepSeek + MLA KV
- DeepEP all-to-all, sobreposição de dupla-batch (DBO) e balanceamento de carga paralelo de especialistas (EPLB)
- Desagregação e caminhos de implantação de pré-preenchimento/decodificação via llm-d, NVIDIA Dynamo e Ray Serve LLM
255
vLLM oferece ainda mais desempenho de inferência com a mesma plataforma GPU.
Em apenas 1 mês, trabalhamos com a @nvidia para aumentar o throughput máximo do Blackwell por GPU em até 33% -- reduzindo significativamente o custo por token -- enquanto também possibilitamos uma velocidade de pico ainda maior para os casos de uso mais sensíveis à latência, impulsionados pela integração profunda do PyTorch e colaboração.

285
Top
Classificação
Favoritos
