Google TPU v6e vs AMD MI300X vs NVIDIA H100/B200: Artificial Analysis'in Donanım Kıyaslaması, NVIDIA'nın TPU v6e (Trillium) karşısında ~5 dolar başına jeton avantajı ve MI300X'e karşı ~2 kat avantaj elde ettiğini gösteriyor; bu da temel çıkarım maliyet metriklerimizde Referans Hızında Milyon Giriş ve Çıkış Tokenı başına maliyet olan çıkarım maliyeti metrikimizde, NVIDIA H100 ve B200 sistemlerinin TPU v6e ve MI300X'ten daha düşük genel maliyet elde ettiğini görüyoruz. Llama 3.3 70B, vLLM ile 30 çıkış belirteken/s çıkış referans hızıyla çalışan bir versiyonda, NVIDIA H100 milyon giriş ve çıkış jetonu başına maliyeti 1,06 dolar sağlarken, MI300X 2,24 dolar ve TPU v6e 5,13 dolar ile karşılaştırılır. Bu analiz, çeşitli eşzamanlılık seviyelerinde sistem çıkarımı geçirimini sağlamak için Yapay Analiz Sistem Yük Testi sonuçlarına ve çeşitli GPU bulut sağlayıcılarından topladığımız GPU örnek fiyatlandırma verilerine dayanır. "Referans Hızında Milyon Giriş ve Çıkış Belirton Başına Maliyet", sistemin ulaşabileceği veri verimini kullanır ve her sorguda saniyede 30 çıkış jetonu tutar ve sistemin kira maliyetini bu veri taşımacılığına (bir milyon tokena ölçeklendirilmiştir) böler. Çeşitli eşzamanlı ve hız seviyeleri boyunca tam sonuçlar Yapay Analiz Donanım Kıyaslama sayfasında mevcuttur. Önemli bağlam: ➤ Sonuçları yalnızca Llama 3.3 70B çalıştıran TPU v6e için raporluyoruz çünkü donanım sayfamızda vLLM on TPU resmi olarak desteklenen tek modeldir. NVIDIA Hopper ve Blackwell sistemleri ve şimdi AMD MI300X için dört modelin tamamında sonuçları donanım sayfamızda raporluyoruz: gpt-oss-120b, Llama 4 Maverick, DeepSeek R1 ve Llama 3.3 70B. ➤ Bu sonuçlar, şirketlerin bulutta kiralayabildiği şeylere dayanıyor - yeni nesil MI355X ve TPU v7 hızlandırıcıları henüz yaygın olarak erişilebilir değil. Referans GPU bulut sağlayıcıları arasında en düşük fiyatı biz alıyoruz. TPU v6e, talep üzerine çip başına saatlik 2,70 dolar fiyatına sunuluyor; bu, NVIDIA B200 için en düşük izlenen fiyatımızdan (saatte 5,50 dolar) daha ucuz, ancak NVIDIA H100 (saatte 2,70 dolar) ve AMD MI300X (saatte 2 dolar) ile benzer. ➤ Google'ın TPU v7 (Ironwood) önümüzdeki haftalarda genel kullanıma sunulacak. Hesaplama (918 TFLOPS'tan 4.614 TFLOPS'a), bellek (32GB'dan 192GB'a kadar) ve bellek bant genişliğinde (1.6 TB/s ile 7.4 TB/s) artışlar göz önüne alındığında, TPU v7'nin v6e'yi önemli ölçüde geride bırakacağını tahmin ediyoruz. Ancak, Google'ın bu durumlar için ne kadar ücret alacağını henüz bilmiyoruz - bu nedenle token başına örtülen maliyetler üzerindeki etkisi henüz net değil. ➤ Milyon Giriş ve Çıkış Tokenı başına maliyet metrikimiz sunucusuz API fiyatlandırmasıyla doğrudan karşılaştırılamaz. Bir dağıtım için bir milyon token başına toplam ima maliyet, hedeflemek istediğiniz sorgu başına hız (parti büyüklüğü/eşzamanlılık ile belirlenir) ve girdi/çıktı tokenlarının oranından etkilenir. ➤ Bu sonuçlar 8 hızlandırıcıya sahip sistemler için geçerlidir - yani. 8xH100, 8xB200, 8xTPU v6e, 8xMI300X. Ayrıca yakın zamanda güncellenmiş Blackwell sonuçlarını yayımladık - bunların daha fazla analizi yakında olacak.
Yapay Analiz Sistemi Yük Testi ile kıyaslandığı gibi, performansın eşzamanlılığa göre nasıl ölçeklendiğine dair ayrıntılı sonuçlar
677,29K