Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformador e Mistura de Especialistas em LLMs, explicados visualmente!
Mistura de Especialistas (MoE) é uma arquitetura popular que utiliza diferentes especialistas para melhorar modelos de Transformers.
Transformador e MoE diferem no bloco decodificador:
- Transformador utiliza uma rede de avanço de alimentação.
- O MoE utiliza especialistas, que são redes feed-forward, mas menores em comparação com as Transformer.
Durante a inferência, um subconjunto de especialistas é selecionado. Isso torna a inferência mais rápida no MoE.
Além disso, como a rede possui múltiplas camadas de decodificadores:
- O texto passa por diferentes especialistas em camadas.
- Os especialistas escolhidos também diferem entre os tokens.
Mas como o modelo decide quais especialistas devem ser ideais?
O roteador faz isso.
É um classificador multiclasse que produz pontuações softmax sobre especialistas para selecionar os melhores especialistas em K.
O roteador é treinado com a rede e aprende a selecionar os melhores especialistas.
Mas não é simples.
Existem desafios!
Desafio 1) Perceba este padrão no início do treinamento:
...
Melhores
Classificação
Favoritos
