Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Voimmeko rikkoa LLM-päättelyn muistiseinän KV-välimuistin uudelleenmaterialisoinnin kautta?
🚨 Esittelyssä XQuant, joka hyödyntää alihyödynnettyjä laskentayksiköitä LLM-päättelyn muistin pullonkaulan poistamiseksi!
• 10–12,5-kertainen muistinsäästö verrattuna FP16:een
• Lähes nollan tarkkuuden menetys
• Päihittää huippuluokan KV-kvantisoinnin🔥
Keskeiset oivallukset:
1. KV-välimuisti = pullonkaula → kasvaa lineaarisesti kontekstin pituuden + erän koon mukaan.
2. Laskenta>> muisti → GPU:t tarjoavat FLOP:t suuruusluokkaa nopeampia kuin muistin kaistanleveys.
3. Keskeinen ajatus → älä tallenna KV:ta, vaan laske se uudelleen. 🧠
Koska LLM-päättely on tyypillisesti muistin kaistanleveyteen sidottu, laskentayksiköt ovat usein käyttämättömänä ja vajaakäytössä. Joten voimme käyttää tätä käytettävissä olevaa laskentaa ilman yleiskustannuksia!
GPU-laitteistotrendit osoittavat, että laskentaominaisuudet skaalautuvat paljon nopeammin kuin muistin kaistanleveys. Näin ollen muistitoimintojen vähentäminen vastineeksi lisälaskennasta voi nopeuttaa LLM-päättelyä. KV-välimuisti kasvaa lineaarisesti sekvenssin pituuden ja erän koon mukaan, mikä aiheuttaa suurimman osan muistitoiminnoista LLM-päättelyn aikana. Jos voimme vaihtaa lisälaskelmia kiertääksemme KV-välimuistin lataamisen ja tallentamisen, voimme nopeuttaa päättelyä!
XQuant hyödyntää tätä laitteistotrendiä: 🧵 [1/7]
Paperi:
Yhteistyö: @coleman_hooper1 @mjlee_official @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,41K
Johtavat
Rankkaus
Suosikit