Algumas reflexões atuais sobre TPU e $GOOG Primeiro: Rejeitar benchmarking de parâmetros inválidos Não discuta o quanto os parâmetros da GPU e TPU são diferentes, o quão cara é a migração e quem é melhor. Qual é o sentido disso? $GOOG nem sequer é uma empresa de semicondutores, e a TPU não é uma mercadoria pronta para ser vendida em todos os lugares. Eles começaram a planejar há quase uma década e são inteiramente para atender ao negócio deles. Eles nem têm o suficiente disso, então como vão ter tempo para vender para você? É como a Amazon fazendo logística, para o seu próprio ritmo, não para vender caminhões. Da mesma forma, isso não pode ser usado para FUD $nvda Dazi para vender cartas, $goog não para vender cartas, como comparar? Não é razoável você usar esse FUD Dazi. Segundo: O núcleo de Gêmeos são as "capacidades de industrialização" Todos estão enrolando o próprio modelo, mas ignorando o ponto mais importante do pouso comercial: custo e velocidade (Economia da Unidade). A experiência da Gemini me mostra que o Google está aproveitando os benefícios nativos das TPUs para levar o custo da inferência de IA ao preço mínimo, mantendo a latência extremamente baixa. Se a IA se tornar uma "infraestrutura" no futuro, "fácil de usar, barato e responde em tempo real" é muito mais importante do que "extremamente inteligente, mas pouco responsivo" para 95% dos cenários dos usuários (checar informações, escrever e-mails e fazer resumos). Por favor, note que o acima é uma hipótese sobre o futuro, a IA está indecisa e ninguém sabe como seu futuro deve ser. $GOOG É como o Ford ou Toyota do ano. Eles introduziram linhas de montagem (clusters TPU) e criaram uma linha de produção enxuta (JAX/resfriamento líquido) integrando software e hardware, transformando os carros em um item acessível para todas as residências, em vez de um item de luxo para os ricos no início de seu nascimento. Enfim: Não disse que o $NVDA é ruim, nem que outros modelos não podem. ...