Root NationニュースITニュースGoogleの新しいGemini AIモデルはオーディオファイルを聞くことができるようになる

Googleの新しいGemini AIモデルはオーディオファイルを聞くことができるようになる

-

過去 1 年半にわたって、生成 AI は急速に成長しており、AI モデルは刻々と知識を獲得しているようです。そこで、人工知能の新しいモデルが、 でログイン、Gemini 1.5 Pro では、オーディオ ファイルを聞いて理解できるようになりました。

AI に供給するデータが増えれば増えるほど、AI の性能は向上します (AI に懐疑的であれば、より恐ろしいことになります)。当初、AI モデルのトレーニングは主にテキストを使用して行われていましたが、これはチャットボットにとって特に重要でした。ただし、その後、 AI-モデルは画像データの処理方法を学習し、画像を再構築する (または要求に応じてまったく新しい画像を作成する) ために使用できるようになりました。

Google ジェミニ

AI モデル Gemini (以前は Bard と呼ばれていました) は、画像を処理することを学習しました (ただし、最近いくつかの画像を作成すると、ほとんど スキャンダル)、現在は音声ファイルを理解する方向に発展しています。これを行う Gemini 1.5 Pro バージョンは現在テスト中であり、Gemini Ultra よりもさらに強力であると言われています。

この機能の実装が成功すれば、ユーザーにとって多くの新たな機会が開かれます。たとえば、長いレポート、会話、電話、講義などの概要の作成による大幅な時間の節約です。ファイルを Gemini にアップロードするだけです。長時間の通話を録音するツールは存在しますが、最初に通話を文字に起こしてから概要を作成します。しかし、双子座はそれを聞くだけで十分です。

更新された Google Gemini AI モデルは、音声ファイルを聞いて理解できるようになります

もちろん、注意点があります。この機能はまだ一般公開されていません。これにアクセスするには、ユーザーは次の Vertex AI 開発プラットフォームが必要です。 でログイン またはAIスタジオ。同社は、後に一般公開される予定だとしているが、スケジュールは明らかにされていない。

一般に、人工知能の発展を見るのは非常に興味深いです。それはすでに私たちの生活を楽にし、創造的な可能性を実現するためのより多くのスペースを与えてくれますが、この機能により、貴重な時間を節約することもできます。ただし、これまで AI チャットボットとの「コミュニケーション」が非常に効果的でなかった場合は、クエリに取り組む価値があるかもしれません。

Googleは、ユーザーがクエリプロンプトを効果的に構築して、次のようなチャットボットを最大限に活用できるようにするためのガイドを公開しました。 双子座。マニュアルでは、プロンプトには常に自分自身について何かを示すこと、タスクだけでなく詳細を追加すること、マーク付きリストを要求することをアドバイスしています。個別のタスクを個別のプロンプトに分割し、リストや文字数に関する特定の要件を追加し、特定の口調でタスクを実行するように依頼することをお勧めします。チャットボットがタスクをよりよく理解できるように、明確な質問があるかどうかをチャットボットに尋ねることもできます。

このガイドでは、プロンプトは自然に、「完全な文章で完全な思考」を含むように書くべきであり、「最も成功したプロンプトは平均 21 単語」であると付け加えています。

また読む:

ソースphonearena
サインアップ
について通知する
ゲスト

0 コメント
埋め込まれたレビュー
すべてのコメントを表示