Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers repostoval/a
Představujeme DeepConf: Hluboké myšlení s jistotou
🚀 První metoda, jak dosáhnout 99,9 % na AIME 2025 s open-source modely! Pomocí GPT-OSS-120B i bez nástrojů jsme dosáhli této téměř dokonalé přesnosti a zároveň jsme ušetřili až 85 % vygenerovaných tokenů.
Přináší také mnoho silných výhod pro paralelní myšlení:
🔥 Zvýšení výkonu: ~10% přesnost napříč modely a datovými sadami
⚡ Mimořádně efektivní: Až o 85 % méně vygenerovaných tokenů
🔧 Plug & play: Funguje s JAKÝMKOLI existujícím modelem - není potřeba žádné školení (také žádné ladění hyperparametrů!)
⭐ Snadné nasazení: Pouze ~50 řádků kódu ve vLLM (viz PR níže)
📚 Papír:
🌐 Projekt:
Společná práce s: @FuYichao123 , xuewei_wang, @tydsh
(podrobnosti viz v komentářích níže)
396,99K
Tim Dettmers repostoval/a
Můžeme prolomit paměťovou stěnu pro inferenci LLM pomocí rematerializace KV cache?
🚨 Představujeme technologii XQuant, která využívá nedostatečně využité výpočetní jednotky k odstranění úzkého hrdla paměti pro inferenci LLM!
• 10–12,5násobná úspora paměti oproti FP16
• Téměř nulová ztráta přesnosti
• Překonává nejmodernější kvantizaci🔥 KV
Klíčové poznatky:
1. KV cache = úzké hrdlo → roste lineárně s délkou kontextu + velikostí dávky.
2. Výpočetní >> paměť → GPU nabízejí FLOPy řádově rychlejší, než je šířka pásma paměti.
3. Klíčová myšlenka → KV neukládat, ale pouze ji přepočítat. 🧠
Vzhledem k tomu, že inference LLM je typicky vázána na šířku pásma paměti, výpočetní jednotky jsou často nečinné a nedostatečně využité. Takže můžeme tyto dostupné výpočetní prostředky využít bez jakýchkoli režijních nákladů!
Trendy hardwaru GPU ukazují, že výpočetní schopnosti se škálují mnohem rychleji než šířka pásma paměti. Snížení paměťových operací výměnou za více výpočtů tedy může pomoci urychlit odvozování LLM. KV cache roste lineárně s délkou sekvence a velikostí dávky, což vyvolává většinu paměťových operací během inference LLM. Pokud můžeme obchodovat s dalšími výpočty, abychom obešli načítání a ukládání KV cache, můžeme urychlit inferenci!
XQuant využívá tohoto hardwarového trendu: 🧵 [1/7]
Papír:
Společná práce s: @coleman_hooper1 @mjlee_official z @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang z @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,37K
Podle mého názoru jsou SWE-bench a T-bench několik benchmarků, které mají dobrý signál, pokud jde o to, jak velký pokrok s modely děláme. Tento model funguje stejně dobře jako Qwen3 Coder a je pouze o 10 % horší než GPT-5, přičemž je také spíše univerzálním LLM než specializovaným na kód.

Z.ai11. 8. 11:43
Presenting the GLM-4.5 technical report!👇
This work demonstrates how we developed models that excel at reasoning, coding, and agentic tasks through a unique, multi-stage training paradigm.
Key innovations include expert model iteration with self-distillation to unify capabilities, a hybrid reasoning mode for dynamic problem-solving, and a difficulty-based reinforcement learning curriculum.

28,6K
Zdá se, že prostředí uzavřeného a otevřeného zdroje bylo vyrovnáno. GPT-5 je jen o 10 % lepší v kódování než model s otevřenou váhou, který můžete spustit na spotřebitelském stolním počítači a brzy i na notebooku. Pokud Anthropic nedokáže přijít s dobrým modelem, pak se AGI pravděpodobně nějakou dobu nedočkáme.
65,86K
Tim Dettmers repostoval/a
Sprcha myšlenek: Místo toho, abyste si ponechali výplatu na Twitteru/X, nasměrujte ji na "PayoutChallenge" dle vašeho výběru - cokoli, co chcete na světě víc!
Zde je můj pro toto kolo, kombinující mé poslední 3 výplaty ve výši 5478,51 $:
Je nezbytné, aby lidstvo nepadlo, zatímco umělá inteligence bude vzestupovat. Lidstvo musí pokračovat ve vzestupu, stát se lepším vedle sebe. Vytvořte něco, co je speciálně navrženo tak, aby povzneslo týmového člověka. Definice záměrně nechala trochu vágní, aby se udržela nějaká entropie kolem interpretace lidí, ale imo příklady zahrnují:
- Jakýkoli software, který pomáhá při vysvětlování, vizualizaci, zapamatování, inspiraci, porozumění, koordinaci atd...
- Nemusí to být příliš vznešené, např. může to být konkrétní vzdělávací článek/video vysvětlující něco, co by mohlo prospět jiným lidem nebo o čem máte jedinečné znalosti.
- Výzvy/agenti k vysvětlení, např. v duchu nedávno vydaného studijního režimu ChatGPT.
- Související umělecká díla
Tato výzva poběží po dobu 2 týdnů až do 17. srpna EOD PST. Odešlete svůj příspěvek jako odpověď. Musí to být něco, co bylo jedinečně vytvořeno pro tuto výzvu a jinak by neexistovalo. Kritéria zahrnují provedení, pákový efekt, novost, inspiraci, estetiku, zábavu. Lidé mohou hlasovat pro příspěvky tím, že se jim líbí, tato "volba lidí" bude také faktorem. O vítězi rozhodnu 17. srpna a pošlu $5478.51 :)
677,02K
Tim Dettmers repostoval/a
Oznamujeme naši ranou práci na inferenci FP4 pro LLM!
- QuTLASS: podpora jádra s nízkou přesností pro GPU Blackwell
- FP-Quant: flexibilní kvantizační svazek pro lamu/Qwen
Dosahujeme 4x zrychlení vs BF16, s dobrou přesností díky mikroškálování MXFP4 + fúzovaným Hadamardovým rotacím.


22,58K
Tim Dettmers repostoval/a
Tokenizace je jen zvláštním případem "chunkingu" - budování nízkoúrovňových dat do vysokoúrovňových abstrakcí - což je zase zásadní pro inteligenci.
Naše nová architektura, která umožňuje hierarchické *dynamické chunking*, nejenže neobsahuje tokenizery, ale jednoduše se lépe škáluje.

194,75K
Tim Dettmers repostoval/a
Největší datová sada člověkem napsaného GPU Code vše open-source? 👀 ANO, prosím! Ve společnosti @GPU_MODE jsme vydali přibližně 40 tisíc 🚀 ukázek kódu psaného člověkem od Tritonu, Hip a PyTorchu a vše je otevřeno na @huggingface Hubu. Trénujte nový GPT, aby byl GPT rychlejší ⚡️
Odkaz níže ⬇️
28,88K
Top
Hodnocení
Oblíbené
Co je v trendu on-chain
Populární na X
Nejvyšší finanční vklady v poslední době
Nejpozoruhodnější