GPT-OSS používá kvantizaci MXFP4 (kterou MLX nyní podporuje). V současné době jsou v oběhu dva formáty FP4: MXFP4 a NVFP4 (NV pro Nvidii). Z pohledu na to, jak GPT-OSS využívá MXFP4, je poněkud suboptimální. Myslím, že NVFP4 bude v budoucnu běžněji používaným formátem. Více podrobností níže: Oba formáty kvantifikují váhy na 4bitovou plovoucí desetinnou čárku (e2 m1) s jedinečným měřítkem pro každou skupinu. Rozdíl je ve velikosti skupiny a v tom, jak je zakódováno měřítko pro každou skupinu. - MXFP4 používá stupnici e8m0 (s pevnou řádovou čárkou, 8 bitů) s velikostí skupiny 32. Zvýší se na mocninu 2 před vynásobením váhy. - NVFP4 používá stupnici e4m3 (fp8) s velikostí skupiny 16. Násobí se přímo hmotností Kódování měřítka v MXFP4 není optimální, protože nemá reprezentace pro mnoho hodnot v rozsahu, který potřebujeme. Ve skutečnosti, pokud se podíváte na rozložení stupnic pro GPT-OSS, je extrémně soustředěno jen kolem několika hodnot. Například u druhé vrstvy MoE se dívám jen na 8/256 možných hodnot, které jsou dokonce použity. (Viz zápletka).
17,46K