一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

GPT-OSS 使用 MXFP4 量化（MLX 現在支持）。目前有兩種 FP4 格式在流通：MXFP4 和 NVFP4（NV 代表 Nvidia）。從 GPT-OSS 使用 MXFP4 的方式來看，它有些不夠優化。我認為 NVFP4 將是未來更常用的格式。更多細節如下：這兩種格式將權重量化為 4 位浮點數（e2 m1），每組有一個獨特的縮放比例。區別在於組大小和每組的縮放比例編碼方式。 - MXFP4 使用 e8m0 縮放（定點，8 位），組大小為 32。在乘以權重之前，它會被提升到 2 的幂。 - NVFP4 使用 e4m3（fp8）縮放，組大小為 16。它直接與權重相乘。 MXFP4 中的縮放編碼相當不夠優化，因為它沒有很多我們需要的值的表示。事實上，如果你查看 GPT-OSS 的縮放分佈，它極其集中在僅幾個值周圍。例如，對於我正在查看的第二個 MoE 層，只有 8/256 個可能的值被使用。（見圖）。

17.34K