المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
محول ومزيج من الخبراء في نماذج اللغة الكبيرة (LLMs)، تم شرحه بصريا!
مزيج الخبراء (MoE) هو معمارية شهيرة تستخدم خبراء مختلفين لتحسين نماذج المحولات.
يختلف المحول وMoE في كتلة فك التشفير:
- يستخدم المحول شبكة تغذية مقدمة.
- تستخدم وزارة الطاقة الخبراء، وهي شبكات تغذية أمامية لكنها أصغر مقارنة بتلك المحولات.
خلال الاستدلال، يتم اختيار مجموعة فرعية من الخبراء. هذا يجعل الاستدلال أسرع في MoE.
أيضا، بما أن الشبكة تحتوي على عدة طبقات فك ترميز:
- يمر النص عبر خبراء مختلفين عبر طبقات.
- الخبراء المختارون أيضا يختلفون بين الرموز.
لكن كيف يقرر النموذج أي الخبراء يجب أن يكونوا المثاليين؟
الراوتر يفعل ذلك.
إنه مصنف متعدد الفئات ينتج درجات سوفتماكس فوق الخبراء لاختيار أفضل خبراء K.
الراوتر مدرب على الشبكة، ويتعلم اختيار أفضل الخبراء.
لكن الأمر ليس بسيطا.
هناك تحديات!
التحدي 1) لاحظ هذا النمط في بداية التدريب:
...
الأفضل
المُتصدِّرة
التطبيقات المفضلة
