Root NationニュースITニュースMicrosoft 人間レベルの AI への道を開くマルチモーダルなアプローチを提示

Microsoft 人間レベルの AI への道を開くマルチモーダルなアプローチを提示

-

今週初めに、世界の研究者らは、 Microsoft Kosmos-1 は、コンテンツの画像を分析し、視覚的なパズルを解き、視覚的なテキスト認識を実行し、視覚的な IQ テストを受け、自然言語の指示を理解できるマルチモーダル人工知能モデルを発表しました。研究者らによると、このようなAIモデルは、人間レベルの共同タスクを実行できる汎用人工知能(AI)の作成に向けた第一歩だという。つまり、このテクノロジーはあらゆる知的作業において人間に取って代わることができるということです。そしてこれが、主要なビジネスパートナーである OpenAI の宣言された目標です Microsoft 人工知能の分野で。

コスモス-1

この場合、Kosmos-1 は会社の純粋に個人的な開発です。 Microsoft。研究者らは、この作成物を「マルチモーダル広範言語モデル」(MLLM) と呼んでいます。これは、そのルーツが ChatGPT などの LLM などのテキストのみの自然言語処理にあるためです。モデルが入力画像を受け入れるためには、研究者はまず画像を LLM が理解できる特別な一連のトークン (主にテキスト) に変換する必要があります。

コスモス-1

Kosmos-1 は、The Pile (800 GB の英語テキスト リソース) と Common Crawl からの抜粋を含む、インターネットのデータベースでトレーニングされました。次に、このモデルは、音声理解、音声生成、光学式文字認識を使用しないテキスト分類、画像キャプション、視覚的な質問応答、Web ページの質問応答、およびローカリゼーションを伴う画像分類に関するいくつかのテストでテストされました。によると Microsoft, Kosmos-1は、これらのテストの多くで現行モデルを上回りました。

コスモス-1

特に興味深いのは、Raven の Progressive Reasoning テストです。このテストでは、一連の図形を提示し、被験者にそのシーケンスを完了するように求めることで視覚的 IQ を測定します。 Kosmos-1 は 22% のケースで正解を出すことができました。

コスモス-1

これらの初期のステップは、将来の最適化により、さらに重要な結果をもたらし、AI モデルがあらゆる形式のメディアを認識して影響を与えることを可能にし、人工アシスタントの機能を大幅に拡張する可能性があります。

また読む:

サインアップ
について通知する
ゲスト

0 コメント
埋め込まれたレビュー
すべてのコメントを表示