Pesquise TPU v6e vs AMD MI300X vs NVIDIA H100/B200: Benchmarking de Hardware da Análise Artificial mostra que a NVIDIA alcança uma vantagem de ~5x em tokens por dólar sobre TPU v6e (Trillium), e uma vantagem de ~2x sobre o MI300X, em nossa principal métrica de custo de inferência Em nossa métrica de custo de inferência chamada Custo Por Milhão de Tokens de Entrada e Saída em Velocidade de Referência, vemos sistemas NVIDIA H100 e B200 alcançando custos gerais menores que TPU v6e e MI300X. Para o Llama 3.3 70B rodando com vLLM a uma Velocidade de Referência por Consulta de 30 tokens de saída/s, a NVIDIA H100 alcança um Custo Por Milhão de Tokens de Entrada e Saída de $1,06, comparado ao MI300X a $2,24 e TPU v6e a $5,13. Essa análise baseia-se nos resultados do Teste de Carga do Sistema de Análise Artificial para o throughput de inferência do sistema em diversos níveis de concorrência, e nos dados de precificação de instâncias de GPU que coletamos de diversos provedores de nuvem de GPU. "Custo por Milhão de Tokens de Entrada e Saída em Velocidade de Referência" utiliza a taxa de transferência do sistema que o sistema pode alcançar mantendo 30 tokens de saída por segundo por consulta, e divide o custo de aluguel do sistema por essa taxa de transferência (escalada para um milhão de tokens). Resultados completos em uma variedade de níveis de concorrência e velocidade estão disponíveis na página de Benchmarking de Hardware de Análise Artificial. Contexto importante: ➤ Estamos apenas reportando resultados para TPU v6e rodando Llama 3.3 70B porque este é o único modelo em nossa página de hardware para o qual vLLM em TPU é oficialmente suportado. Apresentamos resultados para os sistemas NVIDIA Hopper e Blackwell, e agora para o AMD MI300X, em todos os quatro modelos em nossa página de hardware: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 e Llama 3.3 70B. ➤ Esses resultados são baseados no que as empresas podem alugar agora na nuvem - aceleradores de próxima geração MI355X e TPU v7 ainda não estão amplamente disponíveis. Aceitamos o menor preço em um conjunto de fornecedores de nuvem de GPU de referência. O TPU v6e tem preço para o uso sob demanda em $2,70 por chip por hora, o que é mais barato que nosso menor preço rastreado para o NVIDIA B200 ($5,50 por hora), mas semelhante ao NVIDIA H100 ($2,70 por hora) e AMD MI300X ($2 por hora). ➤ O TPU v7 do Google (Ironwood) está se tornando disponível de forma geral nas próximas semanas. Esperaríamos que a TPU v7 superasse substancialmente a v6e, considerando saltos em computação (918 TFLOPS para 4.614 TFLOPS), memória (32GB a 192GB) e largura de banda de memória (1,6 TB/s a 7,4 TB/s). No entanto, ainda não sabemos quanto o Google cobrará por essas instâncias – então o impacto nos custos implícitos por token ainda não está claro. ➤ Nossa métrica de Custo por Milhão de Tokens de Entrada e Saída não pode ser diretamente comparada ao preço da API serverless. O custo total implícito por milhão de tokens para uma determinada implantação é afetado pela velocidade por consulta que você deseja alcançar (determinada pelo tamanho do lote/concorrência) e pela proporção de tokens de entrada para saída. ➤ Esses resultados são todos para sistemas com 8 aceleradores - ou seja, 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Também publicamos recentemente os resultados atualizados da Blackwell – mais análises sobre eles em breve.
Resultados detalhados de como o desempenho escala por concorrência, conforme referenciado pelo Teste de Carga do Sistema de Análise Artificial
443,48K