Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: De hardwarebenchmarking van Artificial Analysis toont aan dat NVIDIA een ~5x tokens-per-dollar voordeel behaalt ten opzichte van TPU v6e (Trillium), en een ~2x voordeel ten opzichte van MI300X, in onze belangrijkste kostenmaatstaf voor inferentie.
In onze maatstaf voor inferentiekosten, genaamd Kosten Per Miljoen Invoer- en Uitvoer-Tokens bij Referentiesnelheid, zien we dat NVIDIA H100 en B200-systemen lagere totale kosten behalen dan TPU v6e en MI300X. Voor Llama 3.3 70B die draait met vLLM bij een Per-Query Referentiesnelheid van 30 uitvoertokens/s, behaalt NVIDIA H100 een Kosten Per Miljoen Invoer- en Uitvoer-Tokens van $1,06, vergeleken met MI300X op $2,24 en TPU v6e op $5,13.
Deze analyse is gebaseerd op de resultaten van de Artificial Analysis System Load Test voor systeeminferentiedoorvoer over een reeks van gelijktijdigheidsniveaus, en GPU-instantieprijsgegevens die we verzamelen van een reeks GPU-cloudproviders. "Kosten Per Miljoen Invoer- en Uitvoer-Tokens bij Referentiesnelheid" gebruikt de systeemdoorvoer die het systeem kan behalen terwijl het 30 uitvoertokens per seconde per query behoudt, en deelt de huurkosten van het systeem door die doorvoer (geschaald naar een miljoen tokens).
Volledige resultaten over een reeks van gelijktijdigheids- en snelheidsniveaus zijn beschikbaar op de pagina van de Artificial Analysis Hardware Benchmarking.
Belangrijke context:
➤ We rapporteren alleen resultaten voor TPU v6e die Llama 3.3 70B draait, omdat dit het enige model op onze hardwarepagina is waarvoor vLLM op TPU officieel wordt ondersteund. We rapporteren resultaten voor NVIDIA Hopper- en Blackwell-systemen, en nu ook voor AMD MI300X, over alle vier modellen op onze hardwarepagina: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 en Llama 3.3 70B.
➤ Deze resultaten zijn gebaseerd op wat bedrijven nu in de cloud kunnen huren - de volgende generatie MI355X- en TPU v7-versnellers zijn nog niet breed beschikbaar. We nemen de laagste prijs uit een referentieset van GPU-cloudproviders. TPU v6e is geprijsd voor on-demand op $2,70 per chip per uur, wat goedkoper is dan onze laagste geregistreerde prijs voor NVIDIA B200 ($5,50 per uur) maar vergelijkbaar met NVIDIA H100 ($2,70 per uur) en AMD MI300X ($2 per uur).
➤ Google’s TPU v7 (Ironwood) wordt de komende weken algemeen beschikbaar. We verwachten dat TPU v7 v6e aanzienlijk zal overtreffen, gezien de sprongen in rekenkracht (918 TFLOPS naar 4.614 TFLOPS), geheugen (32GB naar 192GB) en geheugensnelheid (1,6 TB/s naar 7,4 TB/s). We weten echter nog niet wat Google voor deze instanties zal vragen - dus de impact op de impliciete kosten per token is nog niet duidelijk.
➤ Onze Kosten per Miljoen Invoer- en Uitvoer-Tokens maatstaf kan niet direct worden vergeleken met serverless API-prijzen. De totale impliciete kosten per miljoen tokens voor een bepaalde implementatie worden beïnvloed door de per-query snelheid die je wilt nastreven (gedreven door batchgrootte/gelijkertijd) en de verhouding van invoer- tot uitvoertokens.
➤ Deze resultaten zijn allemaal voor systemen met 8 versnellers - d.w.z. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
We hebben ook recentelijk bijgewerkte Blackwell-resultaten gepubliceerd - meer analyses hiervan komen binnenkort.

Gedetailleerde resultaten van hoe de prestaties schalen op basis van gelijktijdigheid, zoals gemeten door het Artificial Analysis System Load Test

443,47K
Boven
Positie
Favorieten

