Microsoft 宣布正在开发一种名为 Singularity 的新型人工智能 (AI) 工作负载“全球规模”调度系统。
正如该公司发布的白皮书中所解释的那样,Singularity 是“一种新的工作负载感知调度程序,可以透明地抢占和弹性扩展深度学习工作负载,以确保高利用率,而不会影响它们在全球范围内的 AI 加速器的正确性或性能。”。
用非技术术语来说,这意味着该系统旨在充分利用公司的全球服务器硬件网络,从而降低与运行 AI 工作负载相关的成本。 Singularity 价值主张的核心是能够在中游调整工作规模,并在世界各地的不同基础设施之间转移工作。
正如该文档所解释的,正在运行的作业可以移动到另一个集群或数据中心,并在其停止的地方准确恢复,从而优化容量利用率。它还可以使用不同类型和数量的人工智能加速器来弹性扩展或缩小。这个系统的美妙之处,正如其所言 Microsoft,因为它不需要开发人员进行额外的工作,因为 Singularity 不需要修改代码即可工作。
然而,为了使这成为可能, Microsoft 必须找到一种方法将工作负载与硬件资源分开。新的解决方案使用该公司所谓的“代理设备”,该设备在自己的地址空间中运行,并建立一定程度的分离,以确保资源的顺利重新分配。
虽然这篇论文的重点是调度服务,但作者表示该系统旨在扩展到由数十万个 GPU 和其他 AI 加速器组成的队列。
另请阅读: