متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

محول ومزيج من الخبراء في نماذج اللغة الكبيرة (LLMs)، تم شرحه بصريا! مزيج الخبراء (MoE) هو معمارية شهيرة تستخدم خبراء مختلفين لتحسين نماذج المحولات. يختلف المحول وMoE في كتلة فك التشفير: - يستخدم المحول شبكة تغذية مقدمة. - تستخدم وزارة الطاقة الخبراء، وهي شبكات تغذية أمامية لكنها أصغر مقارنة بتلك المحولات. خلال الاستدلال، يتم اختيار مجموعة فرعية من الخبراء. هذا يجعل الاستدلال أسرع في MoE. أيضا، بما أن الشبكة تحتوي على عدة طبقات فك ترميز: - يمر النص عبر خبراء مختلفين عبر طبقات. - الخبراء المختارون أيضا يختلفون بين الرموز. لكن كيف يقرر النموذج أي الخبراء يجب أن يكونوا المثاليين؟ الراوتر يفعل ذلك. إنه مصنف متعدد الفئات ينتج درجات سوفتماكس فوق الخبراء لاختيار أفضل خبراء K. الراوتر مدرب على الشبكة، ويتعلم اختيار أفضل الخبراء. لكن الأمر ليس بسيطا. هناك تحديات! التحدي 1) لاحظ هذا النمط في بداية التدريب: ...

الأفضل

المُتصدِّرة

التطبيقات المفضلة