🎉恭喜 @Zai_org 團隊推出 GLM-4.6V 和 GLM-4.6V-Flash — 在 vLLM Recipes 中提供日零支援,適合希望在自己的 GPU 上運行的團隊。 GLM-4.6V 專注於高品質的多模態推理,具備長上下文和原生工具/函數調用,而 GLM-4.6V-Flash 是一個針對較低延遲和較小佔用的 9B 變體;我們的新 vLLM Recipe 提供即用型配置、多 GPU 指導和以生產為導向的預設。 如果您正在構建推理服務並希望在您的堆疊中使用 GLM-4.6V,請從這裡開始: