研究日誌 第0天:DiLoCo日 我決定圍繞分散式低通訊訓練撰寫論文。基本上,我們如何能夠在分散的節點上有效地訓練大型模型,而不會被網路延遲和帶寬完全摧毀? (1/n)