Root Nation消息资讯资讯Microsoft 提出了一种多模式方法,为人类水平的人工智能铺平道路

Microsoft 提出了一种多模式方法,为人类水平的人工智能铺平道路

-

本周初,来自 Microsoft 提出了 Kosmos-1,这是一种多模态人工智能模型,可以分析图像内容、解决视觉难题、执行视觉文本识别、进行视觉智商测试以及理解自然语言指令。研究人员表示,此类人工智能模型是创建能够执行人类级别联合任务的通用人工智能(AI)的第一步。也就是说,这项技术将能够取代人类完成任何智力任务。这也是关键业务合作伙伴 OpenAI 的既定目标 Microsoft 在人工智能领域。

科斯莫斯1

在这种情况下,Kosmos-1纯粹是公司的个人开发 Microsoft。研究人员将他们的创建称为“多模态广泛语言模型”(MLLM),因为其根源在于纯文本自然语言处理,例如 LLM、ChatGPT。为了让模型接受输入图像,研究人员必须首先将图像转换为法学硕士可以理解的一系列特殊的标记(主要是文本)。

科斯莫斯1

Kosmos-1 在互联网上的数据库上进行了训练,其中包括 The Pile(800 GB 英文文本资源)和 Common Crawl 的摘录。然后对该模型进行了多项测试,包括语音理解、语音生成、无光学字符识别的文本分类、图像字幕、视觉问答、网页问答和带有本地化的图像分类。根据 Microsoft,Kosmos-1 在许多此类测试中都优于当前模型。

科斯莫斯1

特别有趣的是 Raven 的渐进推理测试,它通过呈现一系列形状并要求受试者完成序列来测量视觉智商。 Kosmos-1 能够在 22% 的情况下给出正确答案。

科斯莫斯1

这些早期步骤经过未来的优化,可能会产生更重要的结果,使人工智能模型能够感知和影响任何形式的媒体,从而极大地扩展人工助手的能力。

另请阅读:

DzhereloArstechnica
注册
通知关于
客人

0 评论
嵌入式评论
查看所有评论