Google TPU v6e 与 AMI MI300X 与 NVIDIA H100/B200:人工分析的硬件基准测试显示,NVIDIA 在每美元代币数上比 TPU v6e(Trillium)具有约 5 倍的优势,比 MI300X 具有约 2 倍的优势,在我们的关键推理成本指标中。 在我们称为每百万输入和输出代币成本的推理成本指标中,我们看到 NVIDIA H100 和 B200 系统的整体成本低于 TPU v6e 和 MI300X。对于 Llama 3.3 70B,在每查询参考速度为 30 输出代币/秒时,NVIDIA H100 的每百万输入和输出代币成本为 1.06 美元,而 MI300X 为 2.24 美元,TPU v6e 为 5.13 美元。 此分析依赖于人工分析系统负载测试的结果,以评估系统在不同并发级别下的推理吞吐量,以及我们从多家 GPU 云服务提供商收集的 GPU 实例定价数据。“每百万输入和输出代币成本在参考速度下”使用系统在每查询保持 30 输出代币每秒时可以达到的吞吐量,并将其除以租用系统的成本。 在人工分析硬件基准测试页面上可以查看不同并发和速度级别的完整结果。 重要背景: ➤ 这些结果基于公司目前在云中可以租用的内容 - 下一代 MI355X 和 TPU v7 加速器尚未广泛可用。我们取 GPU 云服务提供商参考集中的最低价格。TPU v6e 的按需定价为每个芯片每小时 2.70 美元,这比我们跟踪的 NVIDIA B200(每小时 5.50 美元)的最低价格便宜,但与 NVIDIA H100(每小时 2.70 美元)和 AMD MI300X(每小时 2 美元)相似。 ➤ Google 的 TPU v7(Ironwood)将在接下来的几周内普遍可用。我们预计 TPU v7 将大幅超越 v6e,因为计算能力(918 TFLOPS 到 4,614 TFLOPS)、内存(32GB 到 192GB)和内存带宽(1.6 TB/s 到 7.4 TB/s)都有了飞跃。然而,我们尚不清楚 Google 将对这些实例收取多少费用 - 因此对每个代币成本的影响尚不明确。 ➤ 我们的每百万输入和输出代币成本指标不能直接与无服务器 API 定价进行比较。给定部署的每百万代币的整体隐含成本受您希望达到的每查询速度(由批量大小/并发性驱动)和输入与输出代币的比例影响。 ➤ 我们仅报告运行 Llama 3.3 70B 的 TPU v6e 的结果,因为这是我们硬件页面上显示的唯一模型,也是官方支持 vLLM 在 TPU 上的模型。我们报告 NVIDIA Hopper 和 Blackwell 系统的结果,现在也报告 AMD MI300X 的结果,涵盖我们硬件页面上的所有四个模型:gpt-oss-120b、Llama 4 Maverick、DeepSeek R1 和 Llama 3.3 70B。 ➤ 这些结果均为配备 8 个加速器的系统 - 即 8xH100、8xB200、8xTPU v6e、8xMI300X。 我们最近还发布了更新的 Blackwell 结果 - 更多分析即将到来。
人工分析系统负载测试基准下,性能如何随着并发性扩展的详细结果
49