AI领域的GPU短缺从来不是关于芯片的问题。我们有很多。 真正的危机在于我们仍然无法使用大多数芯片。 原因如下 🧵
@cot_research 2/ 看看这个差距:志愿者计算像Folding@Home在消费硬件上运行良好。甚至@pewdiepie也在做伟大的工作并做出贡献! 然而,现代AI工作负载将会失败。 相同的硬件池。结果却截然不同。为什么?
3/ 现代 AI 运行时(推理或训练)假设在无菌条件下: - 相同的 GPU - 低延迟、稳定的链接 然而,现实世界是一个异构机器和延迟互联网的混乱。 标准技术栈在这里崩溃。
4/ 许多所谓的“去中心化”计算网络未能找到产品市场契合点,因为它们将这一混乱视为边缘案例。 它们建立市场来聚合闲置的GPU,但聚合并不等于协调。 如果硬件无法像一个统一的机器那样运作,那就... 有点没用。
5/ 协调是在上游。 在计算网络中:如果你不先解决碎片化硬件的协调问题,那么你构建的其他任何东西都没有意义。 可靠性和开发者体验是下游问题。
6/ @YottaLabs 是我见过的第一个从零开始解决这个问题并取得显著进展的团队。 通过重建 AI 堆栈,从调度器到通信层,他们将去中心化计算性能提升到了接近集中式集群的 ~15%。
7/ 更有趣的是 @YottaLabs 的商业模式。市场是次要的。 他们正在构建一个谷歌无法复制的运营韧性数据护城河——智能优化器。 Yotta 将每一个热峰和网络故障反馈到他们的优化器中。稍后会详细介绍。
73