一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

深入了解 @nvidia 🐰 Hopper 与 ⚙️ Blackwell GPU 架构——在计算能力和互连方面的连续飞跃，助力您的 AI 工作负载👇

🐰 Hopper（H100 和 H200）引入了第 4 代 Tensor Core + FP8 Transformer 引擎，与 A9× 相比，训练速度提高了 30×，推理速度提高了 100%。 ⚙️ Blackwell （B200）将于 2024 年底发货，在 10 TB/s NV-HBI 上将两个芯片配对，添加 FP4，并使用 NVLink-5 实现高达 30× 的集群推理。

@nvidia🐰料斗规格张量核心：混合 FP8/FP16/TF32 记忆： - H100 → 80 GB HBM3 @ 3.35 TB/秒 - H200 → 141 GB HBM3e @ 4.8 TB/s NVLink：每个 GPU 高达 900 GB/s

@nvidia 🐰 Hopper 的实际应用基准测试显示，与 H100 相比，H200 为 Llama-2 70B 推理提供动力 45-100%。 ⚠️ 两者都在 2023-25 年出现了供应紧缩。 💻 在 Hyperbolic 的云上：H100 虚拟机和裸机集群，带以太网 + InfiniBand 起价为 1.49 美元/小时。H200 和 B200 通过即时报价。

@nvidia ⚙️ Blackwell Innovations - 小芯片设计（台积电 4NP、208 B 晶体管、10 TB/s NV-HBI） - 第二代变形金刚引擎：FP4 + 增强型 FP8 - NVLink-5：18 个链接 @ 总计 1.8 TB/s - 解压缩引擎：800 GB/s CPU↔GPU - 完整的 RAS 和机密计算

📊 比较性能 H100 SXM：80 GB @ 3.35 TB/s，3.96 PFLOPS （FP8），1.98 PFLOPS （FP16），67 TFLOPS （FP32），NVLink 900 GB/s，700 W H200 SXM：141 GB @ 4.8 TB/s，相同计算 PFLOPS/TFLOPS，NVLink 900 GB/s，700 W HGX B200：180 GB @ 7.7 TB/s，9 PFLOPS （FP8），4.5 PFLOPS （FP16），75 TFLOPS （FP32），NVLink 1.8 TB/s，1000 W

@nvidia ❓ 什么是翻牌？ 1 个浮点运算（add/mul） 1 TFLOP = 10¹²作/秒 1 PFLOP = 10¹⁵ ops/s = 1000× 一个 TFLOP 这些指标显示了 GPU 处理 AI 训练和 HPC 背后的大量数学运算的速度。

@nvidia 🔚 结束语： 🐰 Hopper 以 FP8 混合精度和异步管道树立了标准。 ⚙️ Blackwell 通过 FP4、更多内存和 NVLink-5 推动下一代产品。 H100 仍然是主力——租金为 1.49 美元/小时。 H200 和 B200 可根据要求通过以下方式提供

@nvidia 阅读全文：

6.57K