يستخدم GPT-OSS تكميم MXFP4 (الذي يدعمه MLX الآن). هناك نوعان من تنسيقات FP4 المتداولة الآن: MXFP4 و NVFP4 (NV ل Nvidia). من خلال النظر إلى كيفية استخدام GPT-OSS ل MXFP4 ، فهو دون المستوى الأمثل إلى حد ما. أعتقد أن NVFP4 سيكون التنسيق الأكثر استخداما في المستقبل. مزيد من التفاصيل أدناه: يقوم كلا التنسيقين بقياس الأوزان إلى نقطة عائمة 4 بت (e2 m1) بمقياس فريد لكل مجموعة. الفرق هو حجم المجموعة وكيفية ترميز المقياس لكل مجموعة. - يستخدم MXFP4 مقياس e8m0 (نقطة ثابتة، 8 بت) بحجم مجموعة 32. يتم رفعه إلى قوة 2 قبل ضرب الوزن. - يستخدم NVFP4 مقياس e4m3 (fp8) بحجم مجموعة 16. يتم ضربها بالوزن مباشرة يعد ترميز المقياس في MXFP4 دون المستوى الأمثل لأنه لا يحتوي على تمثيلات للعديد من القيم في النطاق الذي نحتاجه. في الواقع ، إذا نظرت إلى توزيع المقاييس ل GPT-OSS ، فإنه يتركز بشكل كبير حول قيمتين فقط. على سبيل المثال ، بالنسبة لطبقة MoE الثانية ، أنظر إلى 8/256 فقط من القيم المحتملة المستخدمة. (انظر المؤامرة).
‏‎17.35‏K