在大型语言模型中,变换器和专家混合模型的视觉解释! 专家混合模型(MoE)是一种流行的架构,利用不同的专家来改善变换器模型。 变换器和MoE在解码器块上有所不同: - 变换器使用前馈网络。 - MoE使用专家,这些专家是前馈网络,但相较于变换器的专家更小。 在推理过程中,会选择一部分专家。这使得MoE的推理速度更快。 此外,由于网络有多个解码器层: - 文本在不同层之间通过不同的专家。 - 选择的专家在不同的标记之间也会有所不同。 但是模型如何决定哪些专家是理想的呢? 路由器负责这个。 它是一个多类分类器,产生专家的softmax分数,以选择前K个专家。 路由器与网络一起训练,并学习选择最佳专家。 但这并不简单。 存在挑战! 挑战1)注意训练开始时的这种模式: ...