Microsoft 揭示其 Singularity AI 基础设施的详细信息

Microsoft 宣布正在开发一种名为 Singularity 的新型人工智能 (AI) 工作负载“全球规模”调度系统。

正如该公司发布的白皮书中所解释的那样，Singularity 是“一种新的工作负载感知调度程序，可以透明地抢占和弹性扩展深度学习工作负载，以确保高利用率，而不会影响它们在全球范围内的 AI 加速器的正确性或性能。”。

用非技术术语来说，这意味着该系统旨在充分利用公司的全球服务器硬件网络，从而降低与运行 AI 工作负载相关的成本。 Singularity 价值主张的核心是能够在中游调整工作规模，并在世界各地的不同基础设施之间转移工作。

Microsoft

正如该文档所解释的，正在运行的作业可以移动到另一个集群或数据中心，并在其停止的地方准确恢复，从而优化容量利用率。它还可以使用不同类型和数量的人工智能加速器来弹性扩展或缩小。这个系统的美妙之处，正如其所言 Microsoft，因为它不需要开发人员进行额外的工作，因为 Singularity 不需要修改代码即可工作。

然而，为了使这成为可能， Microsoft 必须找到一种方法将工作负载与硬件资源分开。新的解决方案使用该公司所谓的“代理设备”，该设备在自己的地址空间中运行，并建立一定程度的分离，以确保资源的顺利重新分配。

虽然这篇论文的重点是调度服务，但作者表示该系统旨在扩展到由数十万个 GPU 和其他 AI 加速器组成的队列。

另请阅读：

DzhereloTECHRADAR

注册

0 评论

嵌入式评论

查看所有评论

其他文章

Microsoft 揭示其 Singularity AI 基础设施的详细信息

最近的评论