一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

#

Bonk 生態迷因幣展現強韌勢頭

#

有消息稱 Pump.fun 計劃 40 億估值發幣，引發市場猜測

LAUNCHCOIN+6.89%

#

Solana 新代幣發射平臺 Boop.Fun 風頭正勁

header

vLLM

vLLM

vLLM2025年12月31日

恭喜 @Alibaba_Qwen 發布 Qwen-Image-2512！ 🎉 我們很高興地宣布在 vLLM-Omni 中提供 Day-0 支持。您現在可以立即使用我們優化的管道架構來服務這個 SOTA 開源圖像模型。閱讀更多： 👇 下面查看運行情況：

Qwen

Qwen2025年12月31日

🎁 來自Qwen的新年禮物——Qwen-Image-2512已經到來。 🚀 我們在新年之前對Qwen-Image的12月升級。 ✨ 新功能： • 更真實的人類——大幅減少“AI外觀”，更豐富的面部細節 • 更精細的自然紋理——更清晰的風景、水、毛皮和材料 • 更強大的文本渲染——更好的佈局，文本與圖像組合的準確性更高 🏆 在AI Arena進行了10,000多輪盲測，Qwen-Image-2512被評為最強的開源圖像模型，同時在與封閉源系統的競爭中保持競爭力。 👉 立即在Qwen Chat中試用： 🤗 Hugging Face： 📦 ModelScope： 💻 GitHub： 📝 部落格： 🤗 Hugging Face Demo： 📦 ModelScope Demo： ✨API： 🎆 以更好的圖像開始新的一年。

171

vLLM

vLLM2025年12月19日

擴展 MoE 推理通常受限於通信 + KV 緩存：一旦推動專家並行，解碼可能會受到集體操作和不平衡的主導，而預填充的延遲者可能會使整個 EP 群組停滯。關於在多節點 H200（Coreweave，Infiniband + ConnectX-7）上進行 vLLM 寬 EP 的新社區基準結果： - 每個 H200 GPU 持續約 2.2k tokens/s（較早期的每 GPU 約 1.5k tokens/s 有所上升）在這篇文章中，我們分享了使這一切成為可能的關鍵要素： - 寬 EP (`--enable-expert-parallel`) 用於 DeepSeek 風格的 MoE + MLA KV 效率 - DeepEP 全到全，雙批重疊（DBO）和專家並行負載平衡（EPLB） - 通過 llm-d、NVIDIA Dynamo 和 Ray Serve LLM 進行預填充/解碼的解耦和部署路徑

347

vLLM

vLLM2025年12月18日

vLLM 在相同的 GPU 平台上提供了更高的推理性能。在短短 1 個月內，我們與 NVIDIA 合作，將 @nvidia Blackwell 每個 GPU 的最大吞吐量提高了多達 33% -- 顯著降低了每個 token 的成本 -- 同時也為最敏感延遲的使用案例啟用了更高的峰值速度，這得益於深度 PyTorch 的整合與合作。

373

熱門

排行

收藏

©2017 - 2026 WEB3.OKX.COM

繁體中文简体中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

關於 OKX Wallet

下載學院關於我們就業機會聯繫我們服務條款隱私政策 X (原推特)

產品

行情幣幣兌換市場賺幣發現開發者中心瀏覽器安全

用戶支持

幫助中心官方渠道驗證公告 DEX 費率標準加入社群比特幣錢包以太坊錢包 Solana 錢包