Transformator și combinație de experți în LLM-uri, explicate vizual! Amestecul Experților (MoE) este o arhitectură populară care folosește diferiți experți pentru a îmbunătăți modelele Transformer. Transformerul și MoE diferă prin blocul decodorului: - Transformatorul folosește o rețea feed-forward. - MoE folosește experți, care sunt rețele feed-forward, dar mai mici comparativ cu cele Transformer. În timpul inferenței, se selectează un subset de experți. Acest lucru face inferența mai rapidă în MoE. De asemenea, deoarece rețeaua are mai multe straturi de decodoare: - Textul trece prin diferiți experți prin straturi. - Experții aleși diferă și între jetoane. Dar cum decide modelul care experți ar trebui să fie ideali? Routerul face asta. Este un clasificator multi-clasă care produce scoruri softmax peste experți pentru a selecta cei mai buni K experți. Routerul este instruit cu rețeaua și învață să selecteze cei mai buni experți. Dar nu este simplu. Există provocări! Provocarea 1) Observă acest tipar la începutul antrenamentului: ...