Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Akshay 🚀
Semplificando LLM, agenti AI, RAG e Machine Learning per te! • Co-fondatore @dailydoseofds_• BITS Pilani • 3 brevetti • ex-AI Engineer @ LightningAI
Transformer e Mixture of Experts negli LLM, spiegati visivamente!
Mixture of Experts (MoE) è un'architettura popolare che utilizza diversi esperti per migliorare i modelli Transformer.
Transformer e MoE differiscono nel blocco decoder:
- Il Transformer utilizza una rete feed-forward.
- MoE utilizza esperti, che sono reti feed-forward ma più piccole rispetto a quelle del Transformer.
Durante l'inferenza, viene selezionato un sottoinsieme di esperti. Questo rende l'inferenza più veloce in MoE.
Inoltre, poiché la rete ha più strati decoder:
- Il testo passa attraverso diversi esperti tra gli strati.
- Gli esperti scelti differiscono anche tra i token.
Ma come decide il modello quali esperti dovrebbero essere ideali?
Il router lo fa.
È un classificatore multi-classe che produce punteggi softmax sugli esperti per selezionare i migliori K esperti.
Il router viene addestrato con la rete e impara a selezionare i migliori esperti.
Ma non è semplice.
Ci sono delle sfide!
Sfida 1) Nota questo schema all'inizio dell'addestramento:
- Diciamo che il modello seleziona "Esperto 2"
- Questo esperto migliora un po'
- Potrebbe essere selezionato di nuovo poiché è il "migliore"
- Impara di più
- Viene selezionato di nuovo nella prossima iterazione
- Impara di più, e così via!
Questo significa che molti esperti possono rimanere sotto-addestrati a causa della sovra-selezione di pochi esperti!
Risolvendo questo in due passaggi:
- Aggiungere rumore all'output feed-forward del router in modo che altri esperti possano ottenere logit più alti.
- Impostare tutti tranne i migliori K logit a -infinito. Dopo softmax, questi punteggi diventano zero.
In questo modo, anche altri esperti hanno l'opportunità di addestrarsi.
Sfida 2) Alcuni esperti possono essere esposti a più token di altri, portando a esperti sotto-addestrati.
Preveniamo questo limitando il numero di token che un esperto può elaborare.
Se un esperto raggiunge il limite, il token viene passato al prossimo miglior esperto.
In generale, i MoE hanno più parametri da caricare. Ma una frazione di essi viene attivata durante l'inferenza. Questo porta a un'inferenza più veloce.
Mixtral 8x7B e Llama 4 sono due popolari LLM basati su MoE.
Hai già utilizzato i MoE in produzione?
____
Trova me → @akshay_pachaar
Ogni giorno, condivido tutorial e approfondimenti su ML, LLM e ingegneria AI.
243
Tecniche di fine-tuning LLM che imparerei se dovessi personalizzarle:
Salva questo.
1. LoRA
2. QLoRA
3. Prefix Tuning
4. Adapter Tuning
5. Instruction Tuning
6. P-Tuning
7. BitFit
8. Soft Prompts
9. RLHF
10. RLAIF
11. DPO (Ottimizzazione Diretta delle Preferenze)
12. GRPO (Ottimizzazione della Politica Relativa di Gruppo)
13. RLAIF (RL con Feedback AI)
14. Fine-Tuning Multi-Task
15. Fine-Tuning Federato
Il mio preferito è GRPO per costruire modelli di ragionamento. E tu?
Ho condiviso il mio tutorial completo su GRPO nelle risposte.
863
Principali
Ranking
Preferiti
