Transformador e Mistura de Especialistas em LLMs, explicados visualmente! Mistura de Especialistas (MoE) é uma arquitetura popular que utiliza diferentes especialistas para melhorar modelos de Transformers. Transformador e MoE diferem no bloco decodificador: - Transformador utiliza uma rede de avanço de alimentação. - O MoE utiliza especialistas, que são redes feed-forward, mas menores em comparação com as Transformer. Durante a inferência, um subconjunto de especialistas é selecionado. Isso torna a inferência mais rápida no MoE. Além disso, como a rede possui múltiplas camadas de decodificadores: - O texto passa por diferentes especialistas em camadas. - Os especialistas escolhidos também diferem entre os tokens. Mas como o modelo decide quais especialistas devem ser ideais? O roteador faz isso. É um classificador multiclasse que produz pontuações softmax sobre especialistas para selecionar os melhores especialistas em K. O roteador é treinado com a rede e aprende a selecionar os melhores especialistas. Mas não é simples. Existem desafios! Desafio 1) Perceba este padrão no início do treinamento: ...