Blackwell tinybox 中有 384 GB 的快速 VRAM 🧵
我们厌倦了使用供应商工具进行带宽测试,因此我们在 tinygrad 中编写了一个通用工具。GPU 以全速 PCIe 5.0 x16 连接。
单卡上的torch GEMM性能为438 TFLOPS BF16 -> FP32。这使得机器的实际GEMM性能达到1.75 PFLOPS。
在mmapeak,我们的显卡达到了3.1 PFLOPS。这里5090的未削弱表现得尤为明显,它的原始FLOPS是tinybox green v2的两倍多!
我们所有的 Blackwell 盒子将配备我们最新的 RAID 阵列。**55.3 GB/s** 的基准读取带宽,比大多数手机上的 RAM 更快。
在我们等待 gpu-fryer 的同时,这里是 mmapeak。**3.1 PFLOPS** 在卡片 fp16 -> fp32 之间。5090 的削弱缺失在这里真正显现出来,它的原始 FLOPS 是 tinybox green v2 的两倍多!
这是在 huggingface/gpu-fryer 中。满功率下为 2522W,这里没有 Max-Q!
饱和后15分钟的最终温度为72°C、80°C、71°C和76°C。我们仍在研究风扇策略和卡片布局,冷却器与我们之前使用的不同。但运输机器至少会达到这个水平。
13.12K