Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kunnen we de geheugenmuur doorbreken voor LLM-inferentie via KV-cache-rematerialisatie?
🚨 Introductie van XQuant, dat onderbenutte rekeneenheden benut om de geheugenflessenhals voor LLM-inferentie te elimineren!
• 10–12,5x geheugenbesparing ten opzichte van FP16
• Bijna geen nauwkeurigheidsverlies
• Overtreft de state-of-the-art KV-kwantisatie🔥
Belangrijke inzichten:
1. KV-cache = bottleneck → groeit lineair met contextlengte + batchgrootte.
2. Rekenen >> geheugen → GPU's bieden FLOPs die orders van grootte sneller zijn dan geheugenbandbreedte.
3. Sleutelidee → sla KV niet op, bereken het gewoon opnieuw. 🧠
Aangezien LLM-inferentie doorgaans beperkt is door geheugenbandbreedte, zijn rekeneenheden vaak inactief en onderbenut. Dus kunnen we deze beschikbare rekencapaciteit gebruiken zonder enige overhead!
Trends in GPU-hardware tonen aan dat rekencapaciteiten veel sneller schalen dan geheugenbandbreedte. Het verminderen van geheugenbewerkingen in ruil voor meer berekeningen kan helpen om LLM-inferentie te versnellen. De KV-cache groeit lineair met de sequentielengte en batchgrootte, wat de meeste geheugenbewerkingen tijdens LLM-inferentie met zich meebrengt. Als we extra berekeningen kunnen inruilen om het laden en opslaan van de KV-cache te omzeilen, kunnen we de inferentie versnellen!
XQuant benut deze hardwaretrend: 🧵 [1/7]
Paper:
Gezamenlijk werk met: @coleman_hooper1 @mjlee_official van @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang van @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,4K
Boven
Positie
Favorieten