Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformador e Mistura de Especialistas em LLMs, explicado visualmente!
Mistura de Especialistas (MoE) é uma arquitetura popular que utiliza diferentes especialistas para melhorar os modelos Transformer.
Transformador e MoE diferem no bloco de decodificação:
- O Transformador utiliza uma rede de feed-forward.
- O MoE utiliza especialistas, que são redes de feed-forward, mas menores em comparação com as do Transformador.
Durante a inferência, um subconjunto de especialistas é selecionado. Isso torna a inferência mais rápida no MoE.
Além disso, uma vez que a rede tem múltiplas camadas de decodificação:
- O texto passa por diferentes especialistas em várias camadas.
- Os especialistas escolhidos também diferem entre os tokens.
Mas como o modelo decide quais especialistas devem ser ideais?
O roteador faz isso.
É um classificador multi-classe que produz pontuações softmax sobre os especialistas para selecionar os melhores K especialistas.
O roteador é treinado com a rede, e aprende a selecionar os melhores especialistas.
Mas não é simples.
Existem desafios!
Desafio 1) Note este padrão no início do treinamento:
...
Top
Classificação
Favoritos
