Transformador e Mistura de Especialistas em LLMs, explicado visualmente! Mistura de Especialistas (MoE) é uma arquitetura popular que utiliza diferentes especialistas para melhorar os modelos Transformer. Transformador e MoE diferem no bloco de decodificação: - O Transformador utiliza uma rede de feed-forward. - O MoE utiliza especialistas, que são redes de feed-forward, mas menores em comparação com as do Transformador. Durante a inferência, um subconjunto de especialistas é selecionado. Isso torna a inferência mais rápida no MoE. Além disso, uma vez que a rede tem múltiplas camadas de decodificação: - O texto passa por diferentes especialistas em várias camadas. - Os especialistas escolhidos também diferem entre os tokens. Mas como o modelo decide quais especialistas devem ser ideais? O roteador faz isso. É um classificador multi-classe que produz pontuações softmax sobre os especialistas para selecionar os melhores K especialistas. O roteador é treinado com a rede, e aprende a selecionar os melhores especialistas. Mas não é simples. Existem desafios! Desafio 1) Note este padrão no início do treinamento: ...