nmoe 性能结果在 bs=256。nmoe 推理将针对 RL 回合的数值稳定性进行优化(我们提供的正是我们训练的内容)