Vi presenterar vårt tidiga arbete med FP4-inferens för LLM:er! - QuTLASS: Kärnstöd med låg precision för Blackwell GPU:er - FP-Quant: en flexibel kvantiseringssele för Llama/Qwen Vi når 4x speedup jämfört med BF16, med god noggrannhet genom MXFP4 mikroskalning + smälta Hadamard-rotationer.
22,6K