مبروك @Alibaba_Qwen على إصدار Qwen-Image-2512! 🎉
نحن متحمسون للإعلان عن دعم Day-0 في vLLM-Omni. يمكنك الآن تقديم نموذج الصور مفتوحة المصدر SOTA هذا من خلال معمارية خطوط الأنابيب المحسنة لدينا فورا.
اقرأ المزيد:
👇 شاهد تشغيله أدناه:
🎁 هدية رأس السنة من كوين — Qwen-Image-2512 هنا.
🚀 ترقيتنا في ديسمبر إلى Qwen-Image، تماما في الوقت المناسب للعام الجديد.
✨ ما الجديد:
• بشر أكثر واقعية — تقليل كبير في "مظهر الذكاء الاصطناعي"، وتفاصيل وجه أغنى
• القوام الطبيعي الأنعم — مناظر طبيعية أكثر حدة، ماء، فرو، ومواد
• عرض نص أقوى — تخطيط أفضل، دقة أعلى في تركيب النص والصورة
🏆 تم اختبار Qwen-Image-2512 على 10,000+ طلقة عمياء على الذكاء الاصطناعي Arena، ويعد أقوى نموذج صور مفتوح المصدر، مع الحفاظ على المنافسة مع الأنظمة المغلقة المصدر.
👉 جربها الآن في دردشة Qwen:
🤗 وجه العناق:
📦 ModelScope:
💻 GitHub:
📝 المدونة:
🤗 عرض وجه العناق:
📦 عرض ModelScope:
✨واجهة برمجة التطبيقات (API):
🎆 ابدأ العام الجديد بصور أفضل.
غالبا ما يكون تدرج استنتاج MoE مرتبطا بالاتصال + KV-cache: بمجرد دفع التوازي الخبير، يمكن أن يهيمن عليه فك التشفير الجماعي وعدم التوازن، ويمكن للمتخلفين في التعبئة المسبق أن يوقف مجموعة EP كاملة.
نتائج اختبار المجتمع الجديدة لإصدار vLLM على نطاق واسع على H200 متعدد العقد (Coreweave, Infiniband + ConnectX-7):
- ~2,200 رمز/ثانية مستمرة لكل وحدة معالجة رسومات H200 (ارتفاعا من ~1.5k رمز/ثانية لكل وحدة معالجة رسومات سابقة)
في المنشور نشارك النقاط الرئيسية التي تمكن من ذلك:
- Wide-EP ('تمكين الخبير المتوازي') لكفاءة MoE + MLA KV على نمط DeepSeek
- DeepEP شامل، وتداخل الدفعتين (DBO)، وتوازن الحمل المتوازي الخبير (EPLB)
- مسارات التفكيك والنشر المسبق/التعبئة عبر llm-d، NVIDIA Dynamo، وRay Serve LLM
يقدم vLLM أداء استدلالية أكبر مع نفس منصة GPU.
في شهر واحد فقط، عملنا مع NVIDIA لزيادة الحد الأقصى لمعدل النقل @nvidia Blackwell لكل وحدة معالجة رسومات بنسبة تصل إلى 33٪ — مما يقلل بشكل كبير من تكلفة الرمز الواحد — مع تمكين سرعة قصوى أعلى لأكثر حالات الاستخدام حساسية للزمن استجابة للزمن المدعوم من خلال التكامل العميق والتعاون مع PyTorch.