Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analiza independentă a modelelor AI și a furnizorilor de găzduire - alegeți cel mai bun model și furnizor API pentru cazul dvs.
Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: Benchmarking-ul hardware al Artificial Analysis arată că NVIDIA obține un avantaj de ~5x tokenuri pe dolar față de TPU v6e (Trillium) și un avantaj de ~2x față de MI300X, în metrica noastră cheie de cost de inferență
În metrica noastră pentru costul de inferență, numită Cost Per Million Input and Output Tokens at Reference Speed, vedem sistemele NVIDIA H100 și B200 care obțin un cost total mai mic decât TPU v6e și MI300X. Pentru Llama 3.3 70B care rulează cu vLLM la o viteză de referință per interogare de 30 tokenuri de ieșire/s, NVIDIA H100 atinge un cost per milion de tokenuri de intrare și ieșire de 1,06 $, comparativ cu MI300X la 2,24 $ și TPU v6e la 5,13 $.
Această analiză se bazează pe rezultatele Testului de Încărcare al Sistemului de Analiză Artificială pentru debitul de inferență al sistemului pe o gamă largă de niveluri de concurență și pe datele privind prețurile instanțelor GPU pe care le colectăm de la o gamă largă de furnizori cloud GPU. "Cost Per Million Input and Output Tokens at Reference Speed" folosește throughput-ul sistemului pe care sistemul îl poate obține menținând 30 de tokenuri de ieșire pe secundă per interogare și împarte costul de închiriere al sistemului la acel debit (scalat la un milion de tokenuri).
Rezultatele complete pe o gamă largă de concurență și niveluri de viteză sunt disponibile pe pagina Artificial Analysis Hardware Benchmarking.
Context important:
➤ Raportăm rezultate doar pentru TPU v6e care rulează Llama 3.3 70B deoarece acesta este singurul model de pe pagina noastră hardware pentru care vLLM pe TPU este oficial suportat. Raportăm rezultate pentru sistemele NVIDIA Hopper și Blackwell, iar acum pentru AMD MI300X, pentru toate cele patru modele de pe pagina noastră hardware: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 și Llama 3.3 70B.
➤ Aceste rezultate se bazează pe ceea ce companiile pot închiria acum în cloud – acceleratoarele MI355X și TPU v7 de generație următoare nu sunt încă larg disponibile. Acceptăm cel mai mic preț dintre un set de referință de furnizori de cloud GPU. TPU v6e are un preț la cerere de 2,70 dolari pe cip pe oră, ceea ce este mai ieftin decât cel mai mic preț urmărit pentru NVIDIA B200 (5,50 dolari pe oră), dar similar cu NVIDIA H100 (2,70 dolari pe oră) și AMD MI300X (2 dolari pe oră).
➤ TPU v7 de la Google (Ironwood) devine disponibil în general în săptămânile următoare. Ne așteptăm ca TPU v7 să depășească substanțial v6e, având în vedere salturi semnificative în calcul (918 TFLOPS față de 4.614 TFLOPS), memorie (32GB până la 192GB) și lățime de bandă a memoriei (1,6 TB/s până la 7,4 TB/s). Totuși, încă nu știm cât va percepe Google pentru aceste cazuri – așa că impactul asupra costurilor implicite per token nu este încă clar.
➤ Metrica noastră Cost per Million Input and Output Tokens nu poate fi comparată direct cu prețul API-urilor serverless. Costul total implicit pe milion de tokenuri pentru o anumită implementare este influențat de viteza per interogare pe care vrei să o urmărești (determinată de dimensiunea lotului/concurență) și de raportul dintre tokenurile de intrare și cele de ieșire.
➤ Aceste rezultate sunt toate pentru sisteme cu 8 acceleratoare - adică 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
De asemenea, am publicat recent rezultatele actualizate ale Blackwell – mai multe analize despre acestea vor urma în curând.

88,72K
Google TPU v6e vs AMI MI300X vs NVIDIA H100/B200: Benchmarking-ul hardware al Artificial Analysis arată că NVIDIA obține un avantaj de ~5x token-per-dollar față de TPU v6e (Trillium) și un avantaj de ~2x față de MI300X, în metrica noastră cheie de cost de inferență
În metrica noastră pentru costul de inferență, numită Cost Per Million Input and Output Tokens at Reference Speed, vedem sistemele NVIDIA H100 și B200 care obțin un cost total mai mic decât TPU v6e și MI300X. Pentru Llama 3.3 70B la o viteză de referință per interogare de 30 tokens de ieșire/s, NVIDIA H100 atinge un cost pe milion de tokenuri de intrare și ieșire de 1,06 $, comparativ cu MI300X la 2,24 $ și TPU v6e la 5,13 $.
Această analiză se bazează pe rezultatele Testului de Încărcare al Sistemului de Analiză Artificială pentru debitul de inferență al sistemului pe o gamă largă de niveluri de concurență și pe datele privind prețurile instanțelor GPU pe care le colectăm de la o gamă largă de furnizori cloud GPU. "Cost Per Million Input and Output Tokens at Reference Speed" folosește sistemul pe tot parcursul pe care sistemele le pot atinge, menținând 30 de tokenuri de ieșire pe secundă per interogare și împarte acest lucru la costul închirierii sistemului.
Rezultatele complete pe o gamă largă de concurență și niveluri de viteză sunt disponibile pe pagina Artificial Analysis Hardware Benchmarking.
Context important:
➤ Aceste rezultate se bazează pe ceea ce companiile pot închiria acum în cloud – acceleratoarele MI355X și TPU v7 de generație următoare nu sunt încă larg disponibile. Acceptăm cel mai mic preț dintre un set de referință de furnizori de cloud GPU. TPU v6e are un preț la cerere de 2,70 dolari pe cip pe oră, ceea ce este mai ieftin decât cel mai mic preț urmărit pentru NVIDIA B200 (5,50 dolari pe oră), dar similar cu NVIDIA H100 (2,70 dolari pe oră) și AMD MI300X (2 dolari pe oră).
➤ TPU v7 de la Google (Ironwood) devine disponibil în general în săptămânile următoare. Ne așteptăm ca TPU v7 să depășească substanțial v6e, având în vedere salturi semnificative în calcul (918 TFLOPS față de 4.614 TFLOPS), memorie (32GB până la 192GB) și lățime de bandă a memoriei (1,6 TB/s până la 7,4 TB/s). Totuși, încă nu știm cât va percepe Google pentru aceste cazuri – așa că impactul asupra costurilor implicite per token nu este încă clar.
➤ Metrica noastră Cost per Million Input and Output Tokens nu poate fi comparată direct cu prețul API-urilor serverless. Costul total implicit pe milion de tokenuri pentru o anumită implementare este influențat de viteza per interogare pe care vrei să o urmărești (determinată de dimensiunea lotului/concurență) și de raportul dintre tokenurile de intrare și cele de ieșire.
➤ Raportăm rezultate doar pentru TPU v6e care rulează Llama 3.3 70B deoarece acesta este singurul model afișat pe pagina noastră hardware care este oficial suportat și pentru vLLM pe TPU. Raportăm rezultate pentru sistemele NVIDIA Hopper și Blackwell, iar acum pentru AMD MI300X, pentru toate cele patru modele de pe pagina noastră hardware: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 și Llama 3.3 70B.
➤ Aceste rezultate sunt toate pentru sisteme cu 8 acceleratoare - adică 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
De asemenea, am publicat recent rezultatele actualizate ale Blackwell – mai multe analize despre acestea vor urma în curând.

8
Limită superioară
Clasament
Favorite


