Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200 : l'analyse matérielle d'Artificial Analysis montre que NVIDIA obtient un avantage d'environ 5x en tokens par dollar par rapport à TPU v6e (Trillium), et un avantage d'environ 2x par rapport à MI300X, dans notre métrique clé de coût d'inférence. Dans notre métrique de coût d'inférence appelée Coût par Million de Tokens d'Entrée et de Sortie à Vitesse de Référence, nous constatons que les systèmes NVIDIA H100 et B200 atteignent un coût global inférieur à celui de TPU v6e et MI300X. Pour Llama 3.3 70B fonctionnant avec vLLM à une Vitesse de Référence par Requête de 30 tokens de sortie/s, NVIDIA H100 atteint un Coût par Million de Tokens d'Entrée et de Sortie de 1,06 $, contre 2,24 $ pour MI300X et 5,13 $ pour TPU v6e. Cette analyse repose sur les résultats du Test de Charge du Système d'Artificial Analysis pour le débit d'inférence système à travers une gamme de niveaux de concurrence, et sur les données de tarification des instances GPU que nous collectons auprès d'un éventail de fournisseurs de cloud GPU. "Coût par Million de Tokens d'Entrée et de Sortie à Vitesse de Référence" utilise le débit que le système peut atteindre tout en maintenant 30 tokens de sortie par seconde par requête, et divise le coût de location du système par ce débit (échelonné à un million de tokens). Les résultats complets à travers une gamme de niveaux de concurrence et de vitesse sont disponibles sur la page de Benchmarking Matériel d'Artificial Analysis. Contexte important : ➤ Nous ne rapportons que les résultats pour TPU v6e fonctionnant avec Llama 3.3 70B car c'est le seul modèle sur notre page matériel pour lequel vLLM sur TPU est officiellement supporté. Nous rapportons les résultats pour les systèmes NVIDIA Hopper et Blackwell, et maintenant pour AMD MI300X, à travers les quatre modèles sur notre page matériel : gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 et Llama 3.3 70B. ➤ Ces résultats sont basés sur ce que les entreprises peuvent louer maintenant dans le cloud - les accélérateurs de prochaine génération MI355X et TPU v7 ne sont pas encore largement disponibles. Nous prenons le prix le plus bas parmi un ensemble de référence de fournisseurs de cloud GPU. TPU v6e est tarifé à la demande à 2,70 $ par puce par heure, ce qui est moins cher que notre prix le plus bas suivi pour NVIDIA B200 (5,50 $ par heure) mais similaire à NVIDIA H100 (2,70 $ par heure) et AMD MI300X (2 $ par heure). ➤ Le TPU v7 de Google (Ironwood) sera généralement disponible dans les semaines à venir. Nous nous attendons à ce que le TPU v7 surpasse considérablement le v6e, compte tenu des avancées en calcul (918 TFLOPS à 4 614 TFLOPS), en mémoire (32 Go à 192 Go) et en bande passante mémoire (1,6 To/s à 7,4 To/s). Cependant, nous ne savons pas encore ce que Google facturera pour ces instances - donc l'impact sur les coûts implicites par token n'est pas encore clair. ➤ Notre métrique de Coût par Million de Tokens d'Entrée et de Sortie ne peut pas être directement comparée aux prix des API sans serveur. Le coût implicite global par million de tokens pour un déploiement donné est affecté par la vitesse par requête que vous souhaitez atteindre (déterminée par la taille du lot/concurrence) et le ratio de tokens d'entrée par rapport aux tokens de sortie. ➤ Ces résultats concernent tous des systèmes avec 8 accélérateurs - c'est-à-dire 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Nous avons également récemment publié des résultats mis à jour pour Blackwell - plus d'analyses à ce sujet à venir bientôt.
Résultats détaillés sur la façon dont la performance évolue en fonction de la concurrence, tels que mesurés par le test de charge du Système d'Analyse Artificielle.
210,49K