Anunțăm munca noastră timpurie privind inferența FP4 pentru LLM-uri! - QuTLASS: suport kernel de precizie scăzută pentru GPU-urile Blackwell - FP-Quant: un ham de cuantificare flexibil pentru Llama/Qwen Ajungem la o viteză de 4x față de BF16, cu o precizie bună prin microscalare MXFP4 + rotații Hadamard fuzionate.
22,6K