Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Akshay 🚀
Wir vereinfachen LLMs, KI-Agenten, RAG und maschinelles Lernen für Sie! • Mitbegründer @dailydoseofds_• BITS Pilani • 3 Patente • Ex-KI-Ingenieur @ LightningAI
Transformer und Mixture of Experts in LLMs, visuell erklärt!
Mixture of Experts (MoE) ist eine beliebte Architektur, die verschiedene Experten nutzt, um Transformer-Modelle zu verbessern.
Transformer und MoE unterscheiden sich im Decoder-Block:
- Transformer verwendet ein Feed-Forward-Netzwerk.
- MoE verwendet Experten, die Feed-Forward-Netzwerke sind, aber kleiner im Vergleich zu denen von Transformer.
Während der Inferenz wird eine Teilmenge von Experten ausgewählt. Dies macht die Inferenz in MoE schneller.
Außerdem, da das Netzwerk mehrere Decoder-Schichten hat:
- Der Text durchläuft verschiedene Experten über die Schichten hinweg.
- Die gewählten Experten unterscheiden sich auch zwischen den Tokens.
Aber wie entscheidet das Modell, welche Experten ideal sein sollten?
Das macht der Router.
Es ist ein Multi-Class-Klassifikator, der Softmax-Werte über Experten produziert, um die besten K Experten auszuwählen.
Der Router wird mit dem Netzwerk trainiert und lernt, die besten Experten auszuwählen.
Aber es ist nicht einfach.
Es gibt Herausforderungen!
Herausforderung 1) Beachten Sie dieses Muster zu Beginn des Trainings:
- Angenommen, das Modell wählt "Experte 2"
- Dieser Experte wird ein wenig besser
- Er könnte erneut ausgewählt werden, da er der "beste" ist
- Er lernt mehr
- Er wird in der nächsten Iteration erneut ausgewählt
- Er lernt mehr, und so weiter!
Das bedeutet, dass viele Experten untertrainiert bleiben können, aufgrund der Überauswahl einiger weniger Experten!
Wir lösen dies in zwei Schritten:
- Fügen Sie Rauschen zum Feed-Forward-Ausgang des Routers hinzu, damit andere Experten höhere Logits erhalten können.
- Setzen Sie alle Logits außer den besten K auf -Unendlichkeit. Nach Softmax werden diese Werte null.
Auf diese Weise erhalten auch andere Experten die Möglichkeit zu trainieren.
Herausforderung 2) Einige Experten könnten mehr Tokens ausgesetzt sein als andere, was zu untertrainierten Experten führt.
Wir verhindern dies, indem wir die Anzahl der Tokens begrenzen, die ein Experte verarbeiten kann.
Wenn ein Experte das Limit erreicht, wird das Token an den nächstbesten Experten weitergegeben.
Insgesamt haben MoEs mehr Parameter zu laden. Aber nur ein Bruchteil davon wird während der Inferenz aktiviert. Dies führt zu schnellerer Inferenz.
Mixtral 8x7B und Llama 4 sind zwei beliebte MoE-basierte LLMs.
Hast du MoEs schon in der Produktion verwendet?
____
Finde mich → @akshay_pachaar
Jeden Tag teile ich Tutorials und Einblicke zu ML, LLMs und AI Engineering.
235
Techniken zur Feinabstimmung von LLMs, die ich lernen würde, wenn ich sie anpassen wollte:
Lesezeichen setzen.
1. LoRA
2. QLoRA
3. Prefix Tuning
4. Adapter Tuning
5. Instruction Tuning
6. P-Tuning
7. BitFit
8. Soft Prompts
9. RLHF
10. RLAIF
11. DPO (Direkte Präferenzoptimierung)
12. GRPO (Gruppenrelative Politikoptimierung)
13. RLAIF (RL mit KI-Feedback)
14. Multi-Task Feinabstimmung
15. Föderierte Feinabstimmung
Mein Favorit ist GRPO zum Aufbau von Denkmodellen. Wie sieht es bei dir aus?
Ich habe mein vollständiges Tutorial zu GRPO in den Antworten geteilt.
746
RAG über Videos (100+ Stunden), vollständig lokal!
VideoRAG ist das erste Framework, das Chats mit extrem langen Videos ermöglicht, alles lokal durchgeführt.
- Läuft auf einer einzelnen RTX 3090 (24GB)
- Kommt mit einer Drag-and-Drop-Desktop-App
- Verständnis über Videos hinweg mittels Wissensgraphen
100% Open-Source.

400
Top
Ranking
Favoriten
