Voimmeko rikkoa LLM-päättelyn muistiseinän KV-välimuistin uudelleenmaterialisoinnin kautta? 🚨 Esittelyssä XQuant, joka hyödyntää alihyödynnettyjä laskentayksiköitä LLM-päättelyn muistin pullonkaulan poistamiseksi! • 10–12,5-kertainen muistinsäästö verrattuna FP16:een • Lähes nollan tarkkuuden menetys • Päihittää huippuluokan KV-kvantisoinnin🔥 Keskeiset oivallukset: 1. KV-välimuisti = pullonkaula → kasvaa lineaarisesti kontekstin pituuden + erän koon mukaan. 2. Laskenta>> muisti → GPU:t tarjoavat FLOP:t suuruusluokkaa nopeampia kuin muistin kaistanleveys. 3. Keskeinen ajatus → älä tallenna KV:ta, vaan laske se uudelleen. 🧠 Koska LLM-päättely on tyypillisesti muistin kaistanleveyteen sidottu, laskentayksiköt ovat usein käyttämättömänä ja vajaakäytössä. Joten voimme käyttää tätä käytettävissä olevaa laskentaa ilman yleiskustannuksia! GPU-laitteistotrendit osoittavat, että laskentaominaisuudet skaalautuvat paljon nopeammin kuin muistin kaistanleveys. Näin ollen muistitoimintojen vähentäminen vastineeksi lisälaskennasta voi nopeuttaa LLM-päättelyä. KV-välimuisti kasvaa lineaarisesti sekvenssin pituuden ja erän koon mukaan, mikä aiheuttaa suurimman osan muistitoiminnoista LLM-päättelyn aikana. Jos voimme vaihtaa lisälaskelmia kiertääksemme KV-välimuistin lataamisen ja tallentamisen, voimme nopeuttaa päättelyä! XQuant hyödyntää tätä laitteistotrendiä: 🧵 [1/7] Paperi: Yhteistyö: @coleman_hooper1 @mjlee_official @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami
32,41K