Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analisi indipendente dei modelli di intelligenza artificiale e dei provider di hosting: scegli il modello e il fornitore API migliori per il tuo caso d'uso
Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: l'analisi hardware di Artificial Analysis mostra che NVIDIA ottiene un vantaggio di ~5x in termini di token per dollaro rispetto a TPU v6e (Trillium) e un vantaggio di ~2x rispetto a MI300X, nel nostro principale indicatore di costo per l'inferenza.
Nel nostro indicatore di costo per l'inferenza chiamato Costo per Milione di Token di Input e Output a Velocità di Riferimento, vediamo che i sistemi NVIDIA H100 e B200 raggiungono un costo complessivo inferiore rispetto a TPU v6e e MI300X. Per Llama 3.3 70B che gira con vLLM a una Velocità di Riferimento per Query di 30 token di output/s, NVIDIA H100 raggiunge un Costo per Milione di Token di Input e Output di $1.06, rispetto a MI300X a $2.24 e TPU v6e a $5.13.
Questa analisi si basa sui risultati del Test di Carico del Sistema di Artificial Analysis per il throughput di inferenza del sistema attraverso una gamma di livelli di concorrenza e sui dati di prezzo delle istanze GPU che raccogliamo da una serie di fornitori di cloud GPU. "Costo per Milione di Token di Input e Output a Velocità di Riferimento" utilizza il throughput del sistema che il sistema può raggiungere mantenendo 30 token di output al secondo per query e divide il costo di affitto del sistema per quel throughput (scalato a un milione di token).
I risultati completi attraverso una gamma di livelli di concorrenza e velocità sono disponibili sulla pagina di Benchmarking Hardware di Artificial Analysis.
Contesto importante:
➤ Stiamo riportando solo i risultati per TPU v6e che esegue Llama 3.3 70B perché questo è l'unico modello sulla nostra pagina hardware per il quale vLLM su TPU è ufficialmente supportato. Riportiamo i risultati per i sistemi NVIDIA Hopper e Blackwell, e ora per AMD MI300X, attraverso tutti e quattro i modelli sulla nostra pagina hardware: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 e Llama 3.3 70B.
➤ Questi risultati si basano su ciò che le aziende possono noleggiare ora nel cloud - gli acceleratori di nuova generazione MI355X e TPU v7 non sono ancora ampiamente disponibili. Prendiamo il prezzo più basso da un insieme di riferimento di fornitori di cloud GPU. TPU v6e è prezzato per on-demand a $2.70 per chip all'ora, che è più economico del nostro prezzo più basso tracciato per NVIDIA B200 ($5.50 all'ora) ma simile a NVIDIA H100 ($2.70 all'ora) e AMD MI300X ($2 all'ora).
➤ Il TPU v7 di Google (Ironwood) diventerà generalmente disponibile nelle prossime settimane. Ci aspettiamo che il TPU v7 superi sostanzialmente il v6e, date le migliorie nel calcolo (918 TFLOPS a 4,614 TFLOPS), nella memoria (32GB a 192GB) e nella larghezza di banda della memoria (1.6 TB/s a 7.4 TB/s). Tuttavia, non sappiamo ancora cosa Google addebiterà per queste istanze - quindi l'impatto sui costi impliciti per token non è ancora chiaro.
➤ Il nostro indicatore di Costo per Milione di Token di Input e Output non può essere confrontato direttamente con i prezzi delle API serverless. Il costo complessivo implicito per milione di token per un dato deployment è influenzato dalla velocità per query che si desidera raggiungere (guidata dalla dimensione del batch/concorrenza) e dal rapporto tra token di input e token di output.
➤ Questi risultati sono tutti per sistemi con 8 acceleratori - cioè 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
Abbiamo anche recentemente pubblicato risultati aggiornati di Blackwell - ulteriori analisi su questi arriveranno presto.

5,99K
Google TPU v6e vs AMI MI300X vs NVIDIA H100/B200: L'analisi hardware di Artificial Analysis mostra che NVIDIA ottiene un vantaggio di ~5x in termini di token per dollaro rispetto a TPU v6e (Trillium) e un vantaggio di ~2x rispetto a MI300X, nel nostro principale indicatore di costo per inferenza.
Nel nostro indicatore di costo per inferenza chiamato Costo per Milione di Token di Input e Output a Velocità di Riferimento, vediamo che i sistemi NVIDIA H100 e B200 raggiungono un costo complessivo inferiore rispetto a TPU v6e e MI300X. Per Llama 3.3 70B a una Velocità di Riferimento per Query di 30 token di output/s, NVIDIA H100 raggiunge un Costo per Milione di Token di Input e Output di $1.06, rispetto a MI300X a $2.24 e TPU v6e a $5.13.
Questa analisi si basa sui risultati del Test di Carico del Sistema di Artificial Analysis per il throughput di inferenza del sistema attraverso una gamma di livelli di concorrenza e sui dati di prezzo delle istanze GPU che raccogliamo da una serie di fornitori di cloud GPU. "Costo per Milione di Token di Input e Output a Velocità di Riferimento" utilizza il throughput del sistema che i sistemi possono raggiungere mantenendo 30 token di output al secondo per query, e lo divide per il costo di affitto del sistema.
I risultati completi attraverso una gamma di livelli di concorrenza e velocità sono disponibili sulla pagina di Benchmarking Hardware di Artificial Analysis.
Contesto importante:
➤ Questi risultati si basano su ciò che le aziende possono affittare ora nel cloud - gli acceleratori di prossima generazione MI355X e TPU v7 non sono ancora ampiamente disponibili. Prendiamo il prezzo più basso tra un insieme di fornitori di cloud GPU di riferimento. TPU v6e è prezzato per on-demand a $2.70 per chip all'ora, che è più economico del nostro prezzo più basso tracciato per NVIDIA B200 ($5.50 all'ora) ma simile a NVIDIA H100 ($2.70 all'ora) e AMD MI300X ($2 all'ora).
➤ Il TPU v7 di Google (Ironwood) diventerà generalmente disponibile nelle prossime settimane. Ci aspettiamo che il TPU v7 superi sostanzialmente il v6e, date le enormi migliorie in termini di calcolo (918 TFLOPS a 4,614 TFLOPS), memoria (32GB a 192GB) e larghezza di banda della memoria (1.6 TB/s a 7.4 TB/s). Tuttavia, non sappiamo ancora quanto Google addebiterà per queste istanze - quindi l'impatto sui costi impliciti per token non è ancora chiaro.
➤ Il nostro indicatore di Costo per Milione di Token di Input e Output non può essere confrontato direttamente con i prezzi delle API serverless. Il costo complessivo implicito per milione di token per un dato deployment è influenzato dalla velocità per query che si desidera raggiungere (guidata dalla dimensione del batch/concorrenza) e dal rapporto tra token di input e output.
➤ Stiamo riportando risultati solo per TPU v6e che esegue Llama 3.3 70B perché questo è l'unico modello mostrato sulla nostra pagina hardware che è anche ufficialmente supportato per vLLM su TPU. Riportiamo risultati per i sistemi NVIDIA Hopper e Blackwell, e ora per AMD MI300X, attraverso tutti e quattro i modelli sulla nostra pagina hardware: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 e Llama 3.3 70B.
➤ Questi risultati sono tutti per sistemi con 8 acceleratori - cioè 8xH100, 8xB200, 8xTPU v6e, 8xMI300X.
Abbiamo anche recentemente pubblicato risultati aggiornati su Blackwell - ulteriori analisi su questi arriveranno presto.

2
Principali
Ranking
Preferiti


