A PANews informou em 12 de setembro que a Tongyi Qianwen, do Alibaba, lançou a infraestrutura de próxima geração Qwen3-Next e abriu o código dos modelos da série Qwen3-Next-80B-A3B baseados nessa arquitetura. Em comparação com a estrutura do modelo MoE do Qwen3, a estrutura tem as seguintes melhorias principais: mecanismo de atenção mista, estrutura MoE de alta esparsidade, uma série de otimizações estáveis e amigáveis para treinamento e um mecanismo de previsão de vários tokens para melhorar a eficiência da inferência. Com base na estrutura do modelo Qwen3-Next, o Alibaba treinou o modelo Qwen3-Next-80B-A3B-Base, que possui 80 bilhões de parâmetros e ativa apenas 3 bilhões de parâmetros. O modelo base atinge desempenho semelhante ou até ligeiramente melhor do que o modelo denso Qwen3-32B, e seu custo de treinamento (horas de GPU) é inferior a um décimo do Qwen3-32B, e a taxa de transferência de inferência no contexto de mais de 32k é mais de dez vezes maior que a do Qwen3-32B, alcançando o desempenho final de custo de treinamento e inferência.