DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Akshay 🚀

Wir vereinfachen LLMs, KI-Agenten, RAG und maschinelles Lernen für Sie! • Mitbegründer @dailydoseofds_• BITS Pilani • 3 Patente • Ex-KI-Ingenieur @ LightningAI

Transformer und Mixture of Experts in LLMs, visuell erklärt! Mixture of Experts (MoE) ist eine beliebte Architektur, die verschiedene Experten nutzt, um Transformer-Modelle zu verbessern. Transformer und MoE unterscheiden sich im Decoder-Block: - Transformer verwendet ein Feed-Forward-Netzwerk. - MoE verwendet Experten, die Feed-Forward-Netzwerke sind, aber kleiner im Vergleich zu denen von Transformer. Während der Inferenz wird eine Teilmenge von Experten ausgewählt. Dies macht die Inferenz in MoE schneller. Außerdem, da das Netzwerk mehrere Decoder-Schichten hat: - Der Text durchläuft verschiedene Experten über die Schichten hinweg. - Die gewählten Experten unterscheiden sich auch zwischen den Tokens. Aber wie entscheidet das Modell, welche Experten ideal sein sollten? Das macht der Router. Es ist ein Multi-Class-Klassifikator, der Softmax-Werte über Experten produziert, um die besten K Experten auszuwählen. Der Router wird mit dem Netzwerk trainiert und lernt, die besten Experten auszuwählen. Aber es ist nicht einfach. Es gibt Herausforderungen! Herausforderung 1) Beachten Sie dieses Muster zu Beginn des Trainings: - Angenommen, das Modell wählt "Experte 2" - Dieser Experte wird ein wenig besser - Er könnte erneut ausgewählt werden, da er der "beste" ist - Er lernt mehr - Er wird in der nächsten Iteration erneut ausgewählt - Er lernt mehr, und so weiter! Das bedeutet, dass viele Experten untertrainiert bleiben können, aufgrund der Überauswahl einiger weniger Experten! Wir lösen dies in zwei Schritten: - Fügen Sie Rauschen zum Feed-Forward-Ausgang des Routers hinzu, damit andere Experten höhere Logits erhalten können. - Setzen Sie alle Logits außer den besten K auf -Unendlichkeit. Nach Softmax werden diese Werte null. Auf diese Weise erhalten auch andere Experten die Möglichkeit zu trainieren. Herausforderung 2) Einige Experten könnten mehr Tokens ausgesetzt sein als andere, was zu untertrainierten Experten führt. Wir verhindern dies, indem wir die Anzahl der Tokens begrenzen, die ein Experte verarbeiten kann. Wenn ein Experte das Limit erreicht, wird das Token an den nächstbesten Experten weitergegeben. Insgesamt haben MoEs mehr Parameter zu laden. Aber nur ein Bruchteil davon wird während der Inferenz aktiviert. Dies führt zu schnellerer Inferenz. Mixtral 8x7B und Llama 4 sind zwei beliebte MoE-basierte LLMs. Hast du MoEs schon in der Produktion verwendet? ____ Finde mich → @akshay_pachaar Jeden Tag teile ich Tutorials und Einblicke zu ML, LLMs und AI Engineering.

Top

Ranking

Favoriten