Durante a conferência CES, a recém-lançada arquitetura Rubin da NVIDIA tornou-se o foco das discussões recentes de mercado, qual é outro grande avanço além da arquitetura MOE, o que é feito sob medida para a era da IA Agente, etc., eu olhei mais de perto e senti o cheiro da "auto-revolução" de Lao Huang: 1) No passado, a Nvidia dependia das vantagens do hardware da GPU, aproveitando o período de dividendos em que grandes gigantes da IA compravam freneticamente poder de computação para treinar modelos grandes. Naquela época, a lógica era muito simples: quem tivesse mais placas de vídeo poderia treinar o melhor modelo. Mas agora a guerra de IA mudou do campo de batalha de "poder computacional" para a "inferência", especialmente após a chegada da era Agentic, a IA precisa lidar com raciocínios contextuais de alta frequência, múltiplos passos e ultralongos. Atualmente, os parâmetros do modelo são trilhões, a taxa de transferência de dados é extremamente grande, não importa a velocidade da GPU, se os dados de memória não forem rápidos o suficiente, a GPU precisa ficar ociosa, que é a "parede de armazenamento", ou seja, a placa de vídeo não pode mais resolver o problema, e ainda precisa de alta memória de vídeo e largura de banda para suportar. Era isso que Rubin estava tentando resolver. 2) Portanto, o primeiro HBM4 da Rubin pode suportar a quarta geração de memória de alta largura de banda, o que pode fazer a largura de banda chegar a 22TB/s. Mas, mais importante, ele coopera com a tecnologia NVLink 6 (largura de banda de 260TB/s no rack), que logicamente transforma 72 cartões em "um chip gigante". O que isso significa? No passado, quando você comprava uma placa de vídeo, comprava componentes independentes, e a transmissão de dados entre placas era como um mensageiro passando por várias estações de transferência. Agora o Rubin usa interconexões de altíssima densidade para fazer com que os dados fluam entre GPUs com quase nenhuma distância física, e 72 trabalhadores não trabalham mais separadamente, mas compartilham um cérebro. Acho que essa é a jogada decisiva de Rubin: não apenas empilhar parâmetros de hardware, mas refatorar o fluxo de dados de todo o sistema. 3) Se o MOE (Hybrid Expert Model Architecture) é um golpe de redução de dimensionalidade para o modelo de negócios de "cartões violentos empilhados" da Nvidia por estrelas em ascensão como a DeepSeek, então Rubin é um contra-ataque estratégico de Lao Huang, não importa como se olhe. Claro, esse truque também significa que a Nvidia precisa se despedir do antigo modelo de empilhamento violento de cartas. Lao Huang calcula outra conta: se a era Agentic realmente atinge milhares de indústrias, deve superar o obstáculo do custo dos tokens, que é a tendência geral que a Nvidia não consegue acompanhar. Na visão de Lao Huang, em vez de esperar ser invadido pelo Google, Meta e outros grandes fabricantes para invadir o mercado, ou ser subvertido pela DeepSeek e outros modelos, é melhor tomar a iniciativa de ser quem quebra o jogo. 4) A questão é: como a Nvidia vai se comportar após a auto-revolução? O caminho também é muito claro, desde "vender placas de vídeo" até "vender sistemas", de atender alguns grandes fabricantes até tornar a IA realmente popular. No passado, quando você comprava o H100, a Nvidia ganhava dinheiro com a placa de vídeo, e o Rubin vai te dizer no futuro: você precisa comprar um conjunto completo de racks NVL72 - 72 GPUs, um Switch NVLink, sistema completo de resfriamento líquido, gabinetes e até stacks de software de suporte, tudo embalado e vendido para você. O ábaco de Lao Huang também é muito claro: parece que o custo do hardware embalado é mais caro, mas com a adição de extrema eficiência de raciocínio, o custo unitário da IA do comprador é puxado para baixo, e naturalmente não perderá participação de mercado. Mas o limite para jogadores de pequeno e médio porte também é maior. Apenas grandes fabricantes e provedores de serviços em nuvem podem se dar ao luxo de participar, o que vai agravar ainda mais o monopólio do poder computacional. Na situação competitiva atual, pode ser chamado de grande aposta, porque uma vez que houver um problema com a produção em massa do HBM4, ele será substituído por alternativas lançadas pela AMD, Google TPU e outras alternativas que aproveitam o período de janela, e o sonho da Nvidia de vender o sistema pode não ser tão fácil de realizar.