PANews đã báo cáo vào ngày 12 tháng 9 rằng Tongyi Qianwen của Alibaba đã phát hành cơ sở hạ tầng thế hệ tiếp theo Qwen3-Next và mã nguồn mở các mẫu dòng Qwen3-Next-80B-A3B dựa trên kiến trúc này. So với cấu trúc mô hình MoE của Qwen3, cấu trúc có những cải tiến cốt lõi sau: cơ chế chú ý hỗn hợp, cấu trúc MoE thưa thớt cao, một loạt các tối ưu hóa ổn định và thân thiện cho đào tạo và cơ chế dự đoán đa mã thông báo để cải thiện hiệu quả suy luận. Dựa trên cấu trúc mô hình của Qwen3-Next, Alibaba đã đào tạo mô hình Qwen3-Next-80B-A3B-Base, có 80 tỷ tham số và chỉ kích hoạt 3 tỷ tham số. Mô hình cơ sở đạt được hiệu suất tương tự hoặc thậm chí tốt hơn một chút so với mô hình dày đặc Qwen3-32B và chi phí đào tạo (giờ GPU) của nó ít hơn một phần mười so với Qwen3-32B và thông lượng suy luận trong bối cảnh hơn 32k gấp hơn mười lần so với Qwen3-32B, đạt được hiệu suất chi phí đào tạo và suy luận tối ưu.