12 вересня PANews повідомив, що компанія Alibaba Tongyi Qianwen випустила інфраструктуру наступного покоління Qwen3-Next, а також відкрила вихідний код моделей серії Qwen3-Next-80B-A3B на основі цієї архітектури. У порівнянні зі структурою моделі MoE Qwen3, структура має такі основні вдосконалення: механізм змішаної уваги, структура MoE з високою розрідженістю, серія стабільних і дружніх оптимізацій для навчання, а також механізм прогнозування з кількома токенами для підвищення ефективності висновків. Ґрунтуючись на структурі моделі Qwen3-Next, Alibaba навчила модель Qwen3-Next-80B-A3B-Base, яка має 80 мільярдів параметрів і активує лише 3 мільярди параметрів. Базова модель досягає аналогічної або навіть трохи кращої продуктивності, ніж щільна модель Qwen3-32B, а її вартість навчання (години графічного процесора) становить менше однієї десятої від вартості Qwen3-32B, а пропускна здатність висновків у контексті понад 32k більш ніж у десять разів перевищує продуктивність Qwen3-32B, досягаючи кінцевої продуктивності навчання та висновків.