没有人意识到良好的警报和可观察性是高训练正常运行时间的关键。失去一个具有容错能力(和容错状态)的 fsdp 島并不是理想的,因此能够在 <1分钟 内注意到崩溃并识别故障是关键,整个 PI 基础设施团队在这方面都在努力工作 🙏