Během konference CES se nově uvedená Rubinova architektura NVIDIA stala středem nedávných tržních diskuzí, co je dalším velkým průlomem kromě architektury MOE, co je přizpůsobeno éře Agentic AI atd., podíval jsem se blíže a opravdu jsem cítil vůni Lao Huangovy "seberevoluce": 1) V minulosti se Nvidia spoléhala na výhody hardwaru GPU, čímž narušila období dividend, kdy velcí giganti AI zoufale nakupovali výpočetní výkon pro trénování velkých modelů. V té době byla logika velmi jednoduchá – kdo měl více grafických karet, mohl trénovat nejlepší model. Ale nyní, když se válka AI přesunula z bojiště "výpočetního výkonu" k "odvozování", zejména po příchodu éry Agentic, musí AI pracovat s vysokofrekvenčním, vícestupňovým a ultra-dlouhým kontextovým uvažováním. V tuto chvíli jsou parametry modelu biliony, propustnost dat je extrémně velká, bez ohledu na rychlost GPU, pokud paměťová data nejsou dostatečně rychlá, GPU musí zůstat v klidu, což je "úložná zeď", jinými slovy, grafická karta už problém nevyřeší a stále potřebuje vysokou video paměť a šířku pásma k podpore. To se Rubin snažil vyřešit. 2) Proto první HBM4 od Rubinu podporuje čtvrtou generaci pamětí s vysokou šířkou pásma, což může zvýšit rychlost až 22TB/s. Ale co je důležitější, spolupracuje s technologií NVLink 6 (šířka pásma 260TB/s v racku), která logicky proměňuje 72 karet v "obří čip". Co to znamená? V minulosti, když jste si koupili grafickou kartu, kupovali jste nezávislé komponenty a přenos dat mezi kartami byl jako kurýr procházející několika překládacími stanicemi. Nyní Rubin využívá extrémně husté propojení k umožnění toku dat mezi GPU téměř bez fyzické vzdálenosti a 72 pracovníků už nepracuje odděleně, ale sdílí mozek. Myslím, že tohle je Rubinův skutečný zabijácký tah: nejen vrstvit hardwarové parametry, ale refaktorovat tok dat celého systému. 3) Pokud je MOE (Hybrid Expert Model Architecture) úderem na redukci dimenzionality pro obchodní model Nvidie "násilného stackování karet" od vycházejících hvězd jako DeepSeek, pak je Rubin strategickým protiútokem Lao Huanga, ať se na to díváte jakkoliv. Samozřejmě, tento trik také znamená, že Nvidia se musí rozloučit se starým modelem násilného stackování karet. Lao Huang počítá další účet: pokud éra Agentic skutečně pronikne do tisíců odvětví, musí překonat překážku ceny tokenů, což je obecný trend, který Nvidia nemůže udržet. Podle Lao Huanga je lepší než čekat, až Google, Meta a další velcí výrobci budou vnikat na trh, nebo že je DeepSeek a další modely podkopávají, je lepší převzít iniciativu a být tím, kdo hru rozbije. 4) Otázkou je, jak se Nvidia vypořádá sama se sebou po samorevoluci? Cesta je také velmi jasná, od "prodeje grafických karet" k "prodeji systémů", od obsluhy několika velkých výrobců až po skutečnou popularitu AI. V minulosti, když jste koupili H100, Nvidia vydělávala na grafické kartě a Rubin vám to řekne v budoucnu: musíte si koupit kompletní sadu racků NVL72 – 72 GPU, NVLink Switch, kompletní kapalinové chlazení, skříně a dokonce i podpůrné softwarové stacky, vše zabalené a prodané vám. Lao Huangův abakus je také velmi jasný – zdá se, že cena baleného hardwaru je dražší, ale s přidáním extrémní efektivity uvažování se jednotková cena AI kupujícího snižuje a přirozeně neztratí tržní podíl. Ale hranice pro malé a střední hráče je také vyšší. Pouze velcí výrobci a poskytovatelé cloudových služeb si mohou dovolit hrát hry, což ještě více prohloubí monopol výpočetního výkonu. V současné konkurenční situaci lze to nazvat velkým rizikem, protože jakmile nastane problém s masovou výrobou HBM4, bude nahrazen alternativami od AMD, Google TPU a dalšími, které zabírají období okénka, a sen Nvidie o prodeji systému nemusí být tak snadný.