În timpul conferinței CES, noua arhitectură Rubin lansată de NVIDIA a devenit subiectul discuțiilor recente de piață, care este o altă descoperire majoră pe lângă arhitectura MOE, ce este adaptat pentru era Agentic AI etc., am privit mai atent și am simțit mirosul "auto-revoluției" lui Lao Huang: 1) În trecut, Nvidia s-a bazat pe avantajele hardware ale GPU-urilor, profitând de perioada de dividende când giganții majori ai AI cumpărau frenetic putere de calcul pentru a antrena modele mari. La acea vreme, logica era foarte simplă: cine avea mai multe plăci grafice putea antrena cel mai bun model. Dar acum, războiul AI s-a mutat de la câmpul de luptă al "puterii de calcul" la "inferența", mai ales după apariția erei Agențice, AI trebuie să se ocupe de raționamente contextuale de înaltă frecvență, în mai mulți pași și ultra-lungi. În acest moment, parametrii modelului sunt trilioane, debitul de date este extrem de mare, indiferent cât de rapidă este GPU-ul, dacă datele memoriei nu sunt suficient de rapide, GPU-ul trebuie să stea în repaus, ceea ce este "zidul de stocare", adică placa grafică nu mai poate rezolva problema și încă are nevoie de memorie video și lățime de bandă ridicate pentru a fi suportată. Asta încerca Rubin să rezolve. 2) Prin urmare, primul HBM4 al lui Rubin poate suporta a patra generație de memorie cu lățime de bandă mare, ceea ce poate face ca lățimea de bandă să ajungă la 22TB/s. Dar, mai important, cooperează cu tehnologia NVLink 6 (lățime de bandă de 260TB/s în rack), ceea ce transformă logic 72 de carduri într-un "cip uriaș". Ce înseamnă asta? În trecut, când cumpărai o placă grafică, cumpărai componente independente, iar transmiterea datelor între plăci era ca un curier care trecea prin mai multe stații de transfer. Acum Rubin folosește interconexiuni cu densitate extrem de mare pentru a face fluxul de date între GPU-uri cu aproape nicio distanță fizică, iar 72 de angajați nu mai lucrează separat, ci împart creierul. Cred că aceasta este mișcarea decisivă a lui Rubin: nu doar stivuirea parametrilor hardware, ci și refactorizarea fluxului de date al întregului sistem. 3) Dacă MOE (Hybrid Expert Model Architecture) este o lovitură de reducere a dimensiunii modelului de afaceri "violent stacking card" al Nvidia din partea unor stele în ascensiune precum DeepSeek, atunci Rubin este un contraatac strategic al lui Lao Huang, indiferent cum îl privești. Desigur, acest truc înseamnă și că Nvidia trebuie să-și ia rămas bun de la vechiul model de stacking violent de cărți. Lao Huang calculează un alt cont: dacă era Agentic chiar ajunge în mii de industrii, trebuie să treacă de barierul costului tokenului, care este tendința generală pe care Nvidia nu o poate respecta. În opinia lui Lao Huang, în loc să așteptăm să fie invadați de Google, Meta și alți mari producători pentru a pătrunde pe piață sau să fie subminați de DeepSeek și alte modele, este mai bine să luăm inițiativa pentru a fi cel care strică jocul. 4) Întrebarea este: cum se va descurca Nvidia cu ea însăși după auto-revoluție? Drumul este, de asemenea, foarte clar, de la "vânzarea plăcilor grafice" la "vânzarea sistemelor", de la deservirea câtorva producători mari până la popularizarea AI-ului cu adevărat. În trecut, când ai cumpărat H100, Nvidia câștiga bani din placa video, iar Rubin îți va spune în viitor: trebuie să cumperi un set complet de rack-uri NVL72 - 72 GPU-uri, un switch NVLink, sistem complet de răcire cu lichid, dulapuri și chiar stive software de suport, toate ambalate și vândute ție. Abacul lui Lao Huang este, de asemenea, foarte clar: se pare că costul hardware-ului ambalat este mai scump, dar cu adăugarea unei eficiențe extreme de raționament, costul unitar al AI-ului cumpărătorului este redus și, în mod natural, nu va pierde cotă de piață. Dar pragul pentru jucătorii mici și mijlocii este, de asemenea, mai ridicat. Doar marii producători și furnizorii de servicii cloud își permit să joace, ceea ce va agrava și mai mult monopolul puterii de calcul. În situația competitivă actuală, poate fi numit un pariu mare, pentru că, odată ce va apărea o problemă cu producția în masă a HBM4, aceasta va fi înlocuită de alternative lansate de AMD, Google TPU și alte alternative care profită de perioada ferestrei, iar visul Nvidia de a vinde sistemul s-ar putea să nu fie atât de ușor de realizat.