Microsoft Kosmos-1 為人類等級的人工智慧鋪平了道路

本周初，來自 Microsoft 提出了 Kosmos-1，這是一種多模態人工智慧模型，可以分析圖像內容、解決視覺難題、執行視覺文字辨識、進行視覺智商測試以及理解自然語言指令。研究人員表示，這類人工智慧模型是創建能夠執行人類層級聯合任務的通用人工智慧（AI）的第一步。也就是說，這項技術將能夠取代人類完成任何智力任務。這也是關鍵業務夥伴 OpenAI 的既定目標 Microsoft 在人工智慧領域。

在這種情況下，Kosmos-1純粹是公司的個人開發 Microsoft。研究人員將他們的創建稱為「多模態廣泛語言模型」（MLLM），因為其根源在於純文字自然語言處理，例如 LLM、ChatGPT。為了使模型能夠接受輸入圖像，研究人員必須先將圖像轉換為法學碩士可以理解的一系列特殊的標記（主要是文本）。

Kosmos-1 在網路上的資料庫上進行了訓練，其中包括 The Pile（800 GB 英文文字資源）和 Common Crawl 的摘錄。然後對該模型進行了多項測試，包括語音理解、語音生成、無光學字元辨識的文字分類、圖像字幕、視覺問答、網頁問答和帶有本地化的圖像分類。根據 Microsoft，Kosmos-1 在許多此類測試中都優於當前模型。

特別有趣的是 Raven 的漸進推理測試，它通過呈現一系列形狀並要求受試者完成序列來測量視覺智商。 Kosmos-1 能夠在 22% 的情況下給出正確答案。

這些早期步驟經過未來的優化，可能會產生更重要的結果，使人工智能模型能夠感知和影響任何形式的媒體，從而極大地擴展人工智能助手的能力。

另請閱讀：

來源工匠

註冊

0 留言

嵌入式評論

查看所有評論

其他文章

Microsoft 提出了一種多模式方法，為人類水平的人工智慧鋪平道路

最近的評論