Трансформер і суміш експертів у LLM, пояснення візуально! Mix of Experts (MoE) — це популярна архітектура, яка використовує різних експертів для покращення моделей трансформерів. Трансформатор і MoE відрізняються блоком декодера: - Трансформатор використовує мережу прямої передачі. - MoE використовує експертів, які є мережами з прямим сигналом, але меншими за Transformer. Під час висновку обирається підгрупа експертів. Це робить висновок швидшим у MoE. Також, оскільки мережа має кілька шарів декодерів: - Текст проходить через різних експертів на різних шарах. - Обрані експерти також відрізняються між жетонами. Але як модель визначає, які експерти мають бути ідеальними? Роутер так і робить. Це мультикласовий класифікатор, який дає softmax оцінки експертам для вибору найкращих експертів K. Роутер навчений роботі з мережею і вчиться обирати найкращих експертів. Але це не просто. Є виклики! Виклик 1) Зверніть увагу на цю закономірність на початку тренування: ...