Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
¡Enhorabuena por @Alibaba_Qwen por el lanzamiento de Qwen-Image-2512! 🎉
Estamos encantados de anunciar soporte para Day-0 en vLLM-Omni. Ahora puedes servir este modelo de imagen de código abierto SOTA con nuestra arquitectura pipeline optimizada de inmediato.
Leer más:
👇 Mira cómo funciona a continuación:



Qwen31 dic 2025
🎁 Un regalo de Año Nuevo de Qwen — Qwen-Image-2512 está aquí.
🚀 Nuestra actualización de diciembre a Qwen-Image, justo a tiempo para el Año Nuevo.
✨ Novedades:
• Humanos más realistas — el "aspecto de IA" dramáticamente reducido, detalles faciales más intensos
• Texturas naturales más finas — paisajes más nítidos, agua, piel y materiales
• Mejor renderizado del texto: mejor diseño, mayor precisión en la composición texto–imagen
🏆 Probado en 10.000+ rondas ciegas en AI Arena, Qwen-Image-2512 se sitúa como el modelo de imagen de código abierto más sólido, a la vez que sigue siendo competitivo con los sistemas de código cerrado.
👉 Pruébalo ahora en el chat de Qwen:
🤗 Cara de abrazo:
📦 ModelScope:
💻 GitHub:
📝 Blog:
🤗 Demostración de abrazar:
📦 Demostración de ModelScope:
✨API:
🎆 Empieza el Año Nuevo con mejores imágenes.
58
La inferencia de MoE escalable suele ser comunicación + KV-cache bound: una vez que se impulsa el paralelismo experto, la decodificación puede quedar dominada por colectivos y desequilibrios, y los rezagados de prefill pueden estancar a todo un grupo EP.
Nuevos resultados de benchmarks comunitarios para vLLM wide-EP en H200 multinodo (Coreweave, Infiniband + ConnectX-7):
- Sostenido ~2.200 tokens/s por GPU H200 (frente a ~1.5k tokens/s por GPU anteriores)
En la publicación compartimos las piezas clave que lo permiten:
- Wide-EP ('--enable-expert-parallel') para eficiencia de MoE estilo DeepSeek + MLA KV
- DeepEP all-to-all, Superposición de Doble Batch (DBO) y Balanceo de Carga Paralelo Experto (EPLB)
- Rutas de prerelleno/desagregación y despliegue mediante llm-d, NVIDIA Dynamo y Ray Serve LLM
240
vLLM ofrece aún más rendimiento de inferencia con la misma plataforma GPU.
En solo un mes, hemos trabajado con NVIDIA para aumentar @nvidia rendimiento máximo por GPU de Blackwell hasta en un 33% —reduciendo significativamente el coste por token— y también permitiendo una velocidad máxima aún mayor para los casos de uso más sensibles a la latencia, gracias a una integración y colaboración profunda con PyTorch.

272
Populares
Ranking
Favoritas
