热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
深入了解 @nvidia 🐰 Hopper 与 ⚙️ Blackwell GPU 架构——在计算能力和互连方面的连续飞跃,助力您的 AI 工作负载👇

🐰 Hopper(H100 和 H200)引入了第 4 代 Tensor Core + FP8 Transformer 引擎,与 A9× 相比,训练速度提高了 30×,推理速度提高了 100%。
⚙️ Blackwell (B200) 将于 2024 年底发货,在 10 TB/s NV-HBI 上将两个芯片配对,添加 FP4,并使用 NVLink-5 实现高达 30× 的集群推理。


@nvidia🐰料斗规格
张量核心:混合 FP8/FP16/TF32
记忆:
- H100 → 80 GB HBM3 @ 3.35 TB/秒
- H200 → 141 GB HBM3e @ 4.8 TB/s
NVLink:每个 GPU 高达 900 GB/s
@nvidia 🐰 Hopper 的实际应用
基准测试显示,与 H100 相比,H200 为 Llama-2 70B 推理提供动力 45-100%。
⚠️ 两者都在 2023-25 年出现了供应紧缩。
💻 在 Hyperbolic 的云上:H100 虚拟机和裸机集群,带以太网 + InfiniBand 起价为 1.49 美元/小时。H200 和 B200 通过即时报价。

@nvidia ⚙️ Blackwell Innovations
- 小芯片设计(台积电 4NP、208 B 晶体管、10 TB/s NV-HBI)
- 第二代变形金刚引擎:FP4 + 增强型 FP8
- NVLink-5:18 个链接 @ 总计 1.8 TB/s
- 解压缩引擎:800 GB/s CPU↔GPU
- 完整的 RAS 和机密计算
📊 比较性能
H100 SXM:80 GB @ 3.35 TB/s,3.96 PFLOPS (FP8),1.98 PFLOPS (FP16),67 TFLOPS (FP32),NVLink 900 GB/s,700 W
H200 SXM:141 GB @ 4.8 TB/s,相同计算 PFLOPS/TFLOPS,NVLink 900 GB/s,700 W
HGX B200:180 GB @ 7.7 TB/s,9 PFLOPS (FP8),4.5 PFLOPS (FP16),75 TFLOPS (FP32),NVLink 1.8 TB/s,1000 W
@nvidia ❓ 什么是翻牌?
1 个浮点运算 (add/mul)
1 TFLOP = 10¹²作/秒
1 PFLOP = 10¹⁵ ops/s = 1000× 一个 TFLOP
这些指标显示了 GPU 处理 AI 训练和 HPC 背后的大量数学运算的速度。
@nvidia 🔚 结束语:
🐰 Hopper 以 FP8 混合精度和异步管道树立了标准。
⚙️ Blackwell 通过 FP4、更多内存和 NVLink-5 推动下一代产品。
H100 仍然是主力——租金为 1.49 美元/小时。
H200 和 B200 可根据要求通过以下方式提供
@nvidia 阅读全文:
6.57K
热门
排行
收藏