Root Nation消息资讯资讯Microsoft 揭示其 Singularity AI 基础设施的详细信息

Microsoft 揭示其 Singularity AI 基础设施的详细信息

-

Microsoft 宣布正在开发一种名为 Singularity 的新型人工智能 (AI) 工作负载“全球规模”调度系统。

正如该公司发布的白皮书中所解释的那样,Singularity 是“一种新的工作负载感知调度程序,可以透明地抢占和弹性扩展深度学习工作负载,以确保高利用率,而不会影响它们在全球范围内的 AI 加速器的正确性或性能。”。

用非技术术语来说,这意味着该系统旨在充分利用公司的全球服务器硬件网络,从而降低与运行 AI 工作负载相关的成本。 Singularity 价值主张的核心是能够在中游调整工作规模,并在世界各地的不同基础设施之间转移工作。

Microsoft

正如该文档所解释的,正在运行的作业可以移动到另一个集群或数据中心,并在其停止的地方准确恢复,从而优化容量利用率。它还可以使用不同类型和数量的人工智能加速器来弹性扩展或缩小。这个系统的美妙之处,正如其所言 Microsoft,因为它不需要开发人员进行额外的工作,因为 Singularity 不需要修改代码即可工作。

然而,为了使这成为可能, Microsoft 必须找到一种方法将工作负载与硬件资源分开。新的解决方案使用该公司所谓的“代理设备”,该设备在自己的地址空间中运行,并建立一定程度的分离,以确保资源的顺利重新分配。

虽然这篇论文的重点是调度服务,但作者表示该系统旨在扩展到由数十万个 GPU 和其他 AI 加速器组成的队列。

另请阅读:

DzhereloTECHRADAR
注册
通知关于
客人

0 评论
嵌入式评论
查看所有评论
其他文章
订阅更新
现在流行