Společnost PANews 12. září oznámila, že společnost Alibaba Tongyi Qianwen vydala infrastrukturu nové generace Qwen3-Next a otevřela modely řady Qwen3-Next-80B-A3B založené na této architektuře. Ve srovnání se strukturou modelu MoE Qwen3 má struktura následující základní vylepšení: mechanismus smíšené pozornosti, vysokou řídkost struktury MoE, řadu stabilních a přátelských optimalizací pro trénink a multitokenový predikční mechanismus pro zlepšení efektivity odvozování. Na základě struktury modelu Qwen3-Next společnost Alibaba trénovala model Qwen3-Next-80B-A3B-Base, který má 80 miliard parametrů a aktivuje pouze 3 miliardy parametrů. Základní model dosahuje podobného nebo dokonce mírně lepšího výkonu než hustý model Qwen3-32B a jeho náklady na školení (hodiny GPU) jsou méně než desetinové ve srovnání s Qwen3-32B a propustnost odvozování v kontextu více než 32 kB je více než desetkrát vyšší než u Qwen3-32B, čímž dosahuje maximálního výkonu v oblasti nákladů na trénování a odvozování.