Root Nation記事テクノロジーGemini とは: Google の新しい AI モデルのすべて

Gemini とは: Google の新しい AI モデルのすべて

-

Googleはこれまでで最も強力なAIモデルをリリースしたばかりです 双子座。 彼女は何者で、何ができるのでしょうか? 私たちの記事のすべてについて。

Googleは長年にわたり独自のAIツールを開発してきました。 OpenAI からの ChatGPT-3 の公開リリースに伴い、世界で最も人気のある検索エンジンを運営する会社も同様のツールである Bard を作成しました。 しかし、このツールは依然として競合他社に負けており、Google はそれを許すことができませんでした。 したがって、プレゼンテーション中に私たちが知った Google の新しい言語モデルである Gemini が最近世界に登場したことは驚くべきことではありません。

これは、巨人の以前の LLM (Large Language Model) を改良するだけでなく、テキスト処理、グラフィックス、サウンドの分野でまったく新しい可能性を提供するように設計されています。

それでは、新しい Google Gemini 言語モデルを詳しく見てみましょう。

また興味深い: OpenAI プロジェクト Q*: プロジェクトとは何か、またプロジェクトが懸念される理由

Google Gemini とは何ですか?

これは Google の新しく強力な人工知能モデルであり、テキストだけでなく画像、ビデオ、音声も理解できます。 このマルチモーダル モデルは、数学、物理学、その他の分野で複雑なタスクを実行できるほか、さまざまなプログラミング言語で高品質のコードを理解して生成できると説明されています。

Google ジェミニ

Gemini は現在、Google Bard および Google Pixel 8 との統合を通じて利用可能であり、他の Google サービスにも徐々に含まれる予定です。

「Gemini は、Google Research の同僚を含む Google チーム全体の大規模な共同作業の成果です。」 — Google DeepMind の CEO 兼共同創設者であるデニス・ハサビス氏は次のように述べています。 「これは、マルチモーダルになるようにゼロから構築されました。つまり、テキスト、コード、オーディオ、画像、ビデオなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができます。」

- 広告 ​​-

また興味深い: 私たちが AI と呼んでいるものすべてが、実際には人工知能であるとは限りません。 ここにあなたが知る必要があるものがあります

モデルを作成したのは誰ですか?

Google ジェミニ

おそらくすでにご想像のとおり、Gemini は Google と Google の親会社である Alphabet によって作成され、同社のこれまでで最も先進的な AI モデルです。 Google の DeepMind 部門もその開発に大きく貢献しました。 何人の従業員が開発に参加し、どれだけの資金がこの開発に割り当てられたかはまだ不明ですが、Google の能力を知れば、非常に多額の資金があることは間違いありません。

また興味深い: Windows 12: 新しい OS は何になるのか

機会

上で述べたように、これはマルチモーダル モデルであり、テキスト、コード、オーディオ、画像、ビデオなどのさまざまな種類のデータを理解し、操作し、組み合わせることができます。 以前の AI システムと比較して、より優れた理解、思考、コーディング スキルを提供します。

Google ジェミニ

モデルの主な機能は次のとおりです。

  • 翻訳、要約、対話などのタスクのための自然言語処理
  • 数学的思考と問題解決
  • コードとドキュメントを生成する機能
  • 画像、音声、ビデオを理解する
  • 異なるドメインでのマルチタスク

ご覧のとおり、他のモデルよりも優れた機能を備えています。

言語理解、数学的思考、コーディングのテストでは、Gemini Ultra は GPT-4 などのモデルを上回りました。 特に、大規模マルチタスク言語理解 (MMLU) テストで人間レベルのパフォーマンスを上回り、90% 以上の精度を達成した最初のモデルです。

大規模な言語モデル研究の 32 の学術テストで、Gemini は GPT-4 を上回りました。 30 件のケースでは、Google の新しい言語モデルが競合他社よりも優れていました。 これは、モデルが言語を完全に理解できることを示しています。

また読む: Human Brain Project: 人間の脳を模倣する試み

さまざまなバージョンがありますか?

Google は、この AI を、Google データセンターからモバイルデバイスまで、あらゆるデバイスで動作できる柔軟なモデルと説明しています。 この拡張性を実現するために、Gemini には Nano、Pro、Ultra の つのバージョンがあります。

Google ジェミニ

Gemini のさまざまなバージョンについて詳しく説明しましょう。

  • ジェミニナノ: スマートフォン、特に Google Pixel 8 で動作するように設計されています。チャット プログラムでの回答の提案やテキストの要約など、外部サーバーに接続せずに人工知能による効率的な処理が必要なタスクを実行するように設計されています。 このコンパクトなデバイス モデルには、約 6 億のパラメータがあります。
  • ジェミニプロ: Google データセンターで実行されます。 Pro は、Bard AI チャットボットの最新バージョンで動作するように設計されています。 応答時間を短縮し、複雑なクエリを理解することができます。 中型モデルには約 100 億のパラメータがあり、Bard の会話型 AI の中核となります。 Pro は Google Cloud を通じて利用可能になります。
  • ジェミニウルトラ: Ultra バージョンはまだ広く利用可能ではありませんが、Google はこれを最高のパフォーマンスのモデルであると説明しており、「大規模言語モデル (LLM) 研究で使用される、広く使用されている 30 の学術テストのうち 32 についての現在の最先端のものを超えています。」 」 最大かつ最も強力なバージョンとして、Ultra は 1 兆を超えるパラメータを受け取ります。 データセンターに設置されます。 Ultra は企業での使用に適しています。 このバージョンは、非常に複雑なタスクを実行するように設計されています。 Googleは現在のテスト段階終了後にリリースする予定だ。 つまり、最も強力なバージョンはまだユーザーに提供されていません。

また興味深い: Google Bard AI: 知っておくべきことすべて

- 広告 ​​-

ジェミニにアクセスするにはどうすればよいですか?

Nano バージョンと Pro バージョンの AI は、それぞれ Google Pixel 8 スマートフォンや Bard チャットボットなどの Google 製品で利用できるようになりました。 Googleは最終的にはこれを自社の検索エンジン、広告、Gmail電子メールサービス、Chromeブラウザ、その他のサービスに統合する予定だ。

開発者と企業顧客は、13 年 2023 月 日より、Google AI Studio および Google Cloud Vertex AI の Gemini API を通じて Pro にアクセスできるようになります。開発者 Android AICore 経由で Nano バージョン モデルにアクセスできるようになり、早期プレビューで利用可能になります。

また読む: Samsung Galaxy フリップ5 vs Motorola Razr 40 Ultra: 二人の横綱の戦い

Google Bard のジェミニ: 何が変わりますか?

プレゼンテーション中に提供された情報によると、次のように、このモデルにより Google Bard はより複雑な問題をより適切に処理できるようになります。

「私たちは、モデルが自然にマルチモーダルであり、最初から複数のモダリティで事前トレーニングされるように Gemini を設計しました。 次に、パフォーマンスを向上させるためにマルチモーダル データをさらに追加して改良しました。 その結果、Gemini は以前のマルチモーダル モデルよりもはるかに優れた理解と推論を容易に行い、ほぼすべての分野で最先端の機能を誇ります。

Gemini の並外れたマルチモーダル機能は、複雑なテキスト情報と視覚情報を理解するのに役立ちます。 これらは、巨大なデータセットから特定の情報を抽出する場合に特に役立ちます。 何十万もの文書を読み取り、フィルタリングし、分析することで情報の本質を抽出するこのモデルの並外れた能力は、間違いなく科学から金融までのさまざまな分野での超高速の新発見に貢献するでしょう。」

プレゼンテーションでは、200万件を超えるレコードが含まれる複雑な調査の例が示され、その一部は新しいデータに従って更新する必要がありました。 ご想像のとおり、これを手動で行うのは非常に時間がかかるため、研究著者らは Gemini を使用して、入力を取得して必要な更新を行うコードを準備しました。 もう つのより現実的な例は、Google の言語モデルを使用して数学や物理学の問題を説明することです。

Google ジェミニ

ここでの入力データは、学校の授業の課題の写真/スキャンでした。 システムは、そこに保存されているグラフィックとテキストを処理し、宿題のどの部分が正しく行われ、どの部分にさらに注意が必要かを示すことができました。 このプレゼンテーションでは、ユーザーが Gemini にタスクの説明を繰り返し求めることができ、その後の試みはそれぞれ、より簡単な言語で説明する必要があることが示されました。 もちろん、Gemini がどれほど正確で正確であるかは、興味のある人によってチェックされることになりますが、写真からテキストを直接読み取って処理する能力は印象的です。 プレゼンテーション中に追加されたように:

ジェミニは、テキスト、画像、音声などを同時に認識して理解するように教えられてきました。 このおかげで、彼は情報のニュアンスをよりよく理解し、複雑な質問に答えることができます。 数学や物理学に関連するトピックを説明するのに特に効果的で、個人的な宿題の補助として役立ちます。"

Google Pixel スマートフォンの Gemini

Googleはまた、Geminiが新しいTPUv5チップセットを「学習した」と豪語し、2024年初めにGemini Ultraを導入する予定で、Gemini Ultraは巨人の音声モデルの消費者向けバージョンの新バージョンであるBard Advancedを使用する予定だ。 Gemini Ultra は現在テスト中であり、一部のセキュリティ専門家がすでに利用可能です。

Google ジェミニ

最後の重要な情報は、Google Pixel 8 スマートフォンへの Gemini の導入です。これにより、とりわけ、メッセンジャーの Gboard アプリケーションを介して迅速な返信を作成できるようになります。最初は WhatsApp ですが、来年にはそのようなソリューションが通信に関連する他のアプリケーションにも登場するでしょう。ただし、これは始まりにすぎません。Google は Pixel 8 スマートフォン向けに多くの新しい AI ツールを発表しており、将来的には他のいくつかのデバイスでも利用できるようになるでしょう。 Android。ただし、これらはさらなる計画であり、現時点では詳細は提供されていません。

Gemini は GPT-4 などの他の AI モデルとどう違うのですか?

Google の新しい Gemini モデルは、これまでで最大かつ最も先進的な AI モデルの 4 つであるように見えますが、Ultra モデルのリリースによってそれが決定されることは確実です。 現在 AI チャットボットを使用している他の人気モデルと比較すると、Gemini は独自のマルチモーダル機能で際立っていますが、GPT- などの他のモデルは真のマルチモーダルであるためにプラグインと統合に依存しています。

正確性と公平性に対する懸念

Gemini は人工知能機能の開発において大きな進歩を遂げていますが、他の主要な言語モデルと同じ欠点があります。 まず第一に、これは虚偽の情報が作成される可能性です。 バイアスは、新しい言語モデルで利用可能なトレーニング データにも基づいています。 現実世界の理解が限られていることにも言及する価値があります。 Google は、新しい Gemini モデルが間違いを犯したり、証拠に基づいていない事実を提供したり、常識に反する可能性があることを認めています。

Google ジェミニ

特に、まだ十分に調査されていない新機能を備えた Gemini Ultra については、さらなるテストが必要です。 Google は、潜在的な損害を最小限に抑えるために、Gemini を慎重に評価することに取り組んでいます。

また興味深い: の全て Microsoft 副操縦士: 未来か、それとも間違った方向か?

未来は双子座とともにある

Google による Gemini の発売は、AI 開発の新時代の到来を告げました。 以前のモデルや人間のベースラインと比較して最高のパフォーマンスを誇るジェミニは、人工知能の将来の可能性を示唆していますが、特定の欠点に対処するためにはさらに研究が必要です。

将来的には、Gemini が Google 製品でさらに便利でインテリジェントな機能を提供することが期待できます。 同社は今後も、Gemini を英語以外にも拡張し、コア モデル方法論を構築していく予定です。

私たちはただ見守り、Google が何をしているのかを知っていることを祈ることしかできません。

また読む: 

Yuri Svitlyk
Yuri Svitlyk
カルパティア山脈の息子、知られざる数学の天才、「弁護士」Microsoft、実践的な利他主義者、左右
- 広告 ​​-
サインアップ
について通知する
ゲスト

0 コメント
埋め込まれたレビュー
すべてのコメントを表示