Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Akshay 🚀
Menyederhanakan LLM, Agen AI, RAG, dan Pembelajaran Mesin untuk Anda! • Co-founder @dailydoseofds_• BITS Pilani • 3 Paten • mantan Insinyur AI @ LightningAI
Transformer dan Campuran Ahli LLM, dijelaskan secara visual!
Mixture of Experts (MoE) adalah arsitektur populer yang menggunakan berbagai ahli untuk meningkatkan model Transformer.
Transformer dan MoE berbeda dalam blok dekoder:
- Transformer menggunakan jaringan feed-forward.
- MoE menggunakan ahli, yang merupakan jaringan feed-forward tetapi lebih kecil dibandingkan dengan Transformer tersebut.
Selama inferensi, subset ahli dipilih. Ini membuat inferensi lebih cepat di MoE.
Juga, karena jaringan memiliki beberapa lapisan dekoder:
- Teks melewati berbagai ahli di seluruh lapisan.
- Ahli yang dipilih juga berbeda antar token.
Tetapi bagaimana model memutuskan ahli mana yang ideal?
Router melakukan itu.
Ini adalah pengklasifikasi multi-kelas yang menghasilkan skor softmax atas para ahli untuk memilih ahli K teratas.
Router dilatih dengan jaringan, dan belajar memilih ahli terbaik.
Tapi itu tidak mudah.
Ada tantangan!
Tantangan 1) Perhatikan pola ini di awal pelatihan:
- Katakanlah, model memilih "Expert 2"
- Pakar ini menjadi sedikit lebih baik
- Mungkin dipilih lagi karena itu adalah yang "terbaik"
- Belajar lebih banyak
- Itu akan dipilih lagi di iterasi berikutnya
- Ini belajar lebih banyak, dan seterusnya!
Ini berarti banyak ahli yang kurang terlatih karena pemilihan beberapa ahli yang berlebihan!
Kami menyelesaikannya dalam dua langkah:
- Tambahkan noise ke output feed-forward router sehingga ahli lain bisa mendapatkan logit yang lebih tinggi.
- Atur semua kecuali log K teratas ke -infinity. Setelah softmax, skor ini menjadi nol.
Dengan cara ini, ahli lain juga mendapatkan kesempatan untuk berlatih.
Tantangan 2) Beberapa ahli mungkin terpapar lebih banyak token daripada yang lain, yang mengarah ke ahli yang kurang terlatih.
Kami mencegah hal ini dengan membatasi jumlah token yang dapat diproses oleh seorang ahli.
Jika seorang ahli mencapai batas, token diteruskan ke ahli terbaik berikutnya.
Secara keseluruhan, MoE memiliki lebih banyak parameter untuk dimuat. Tetapi sebagian kecil dari mereka diaktifkan selama inferensi. Hal ini mengarah pada inferensi yang lebih cepat.
Mixtral 8x7B dan Llama 4 adalah dua LLM berbasis MoE yang populer.
Apakah Anda sudah menggunakan MoE dalam produksi?
____
Temukan saya → @akshay_pachaar
Setiap hari, saya berbagi tutorial dan wawasan tentang ML, LLM, dan AI Engineering.
273
Teknik penyempurnaan LLM yang akan saya pelajari jika saya menyesuaikannya:
Tandai ini.
1. LoRA
2. QLoRA
3. Penyetelan Awalan
4. Penyetelan Adaptor
5. Penyetelan Instruksi
6. P-Tuning
7. BitFit
8. Petunjuk Lembut
9. RLHF
10. RLAIF
11. DPO (Optimasi Preferensi Langsung)
12. GRPO (Pengoptimalan Kebijakan Relatif Grup)
13. RLAIF (RL dengan Umpan Balik AI)
14. Penyempurnaan Multi-Tugas
15. Penyempurnaan Federasi
Favorit saya adalah GRPO untuk membangun model penalaran. Bagaimana denganmu?
Saya telah membagikan tutorial lengkap saya tentang GRPO di balasan.
934
Teratas
Peringkat
Favorit
