GPT-OSS 使用 MXFP4 量化(MLX 現在支持)。 目前有兩種 FP4 格式在流通:MXFP4 和 NVFP4(NV 代表 Nvidia)。 從 GPT-OSS 使用 MXFP4 的方式來看,它有些不夠優化。我認為 NVFP4 將是未來更常用的格式。 更多細節如下: 這兩種格式將權重量化為 4 位浮點數(e2 m1),每組有一個獨特的縮放比例。 區別在於組大小和每組的縮放比例編碼方式。 - MXFP4 使用 e8m0 縮放(定點,8 位),組大小為 32。在乘以權重之前,它會被提升到 2 的幂。 - NVFP4 使用 e4m3(fp8)縮放,組大小為 16。它直接與權重相乘。 MXFP4 中的縮放編碼相當不夠優化,因為它沒有很多我們需要的值的表示。 事實上,如果你查看 GPT-OSS 的縮放分佈,它極其集中在僅幾個值周圍。例如,對於我正在查看的第二個 MoE 層,只有 8/256 個可能的值被使用。(見圖)。
17.34K