研究日志 第0天:DiLoCo日 我决定围绕分布式低通信训练撰写论文。基本上,我们如何能够在分布式节点之间高效地训练大型模型,而不被网络延迟和带宽彻底摧毁? (1/n)