Kunnen we de geheugenmuur doorbreken voor LLM-inferentie via KV-cache-rematerialisatie? 🚨 Introductie van XQuant, dat onderbenutte rekeneenheden benut om de geheugenflessenhals voor LLM-inferentie te elimineren! • 10–12,5x geheugenbesparing ten opzichte van FP16 • Bijna geen nauwkeurigheidsverlies • Overtreft de state-of-the-art KV-kwantisatie🔥 Belangrijke inzichten: 1. KV-cache = bottleneck → groeit lineair met contextlengte + batchgrootte. 2. Rekenen >> geheugen → GPU's bieden FLOPs die orders van grootte sneller zijn dan geheugenbandbreedte. 3. Sleutelidee → sla KV niet op, bereken het gewoon opnieuw. 🧠 Aangezien LLM-inferentie doorgaans beperkt is door geheugenbandbreedte, zijn rekeneenheden vaak inactief en onderbenut. Dus kunnen we deze beschikbare rekencapaciteit gebruiken zonder enige overhead! Trends in GPU-hardware tonen aan dat rekencapaciteiten veel sneller schalen dan geheugenbandbreedte. Het verminderen van geheugenbewerkingen in ruil voor meer berekeningen kan helpen om LLM-inferentie te versnellen. De KV-cache groeit lineair met de sequentielengte en batchgrootte, wat de meeste geheugenbewerkingen tijdens LLM-inferentie met zich meebrengt. Als we extra berekeningen kunnen inruilen om het laden en opslaan van de KV-cache te omzeilen, kunnen we de inferentie versnellen! XQuant benut deze hardwaretrend: 🧵 [1/7] Paper: Gezamenlijk werk met: @coleman_hooper1 @mjlee_official van @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang van @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami
32,4K