Root NationニュースITニュース新しいAI Microsoft 3 秒間の音声サンプルから任意の人の声を模倣します。

新しいAI Microsoft 3 秒間の音声サンプルから任意の人の声を模倣します。

-

木曜日、研究者らは、 Microsoft は、3 秒間の音声サンプルが与えられると人間の声を正確に模倣できる VALL-E と呼ばれる新しい人工知能 (AI) モデルを発表しました。 VALL-E は、特定の声を学習すると、話者の感情的なトーンを維持しながら、その人が何かを言っている音声を合成できます。

その作成者は、VALL-E を高品質のテキスト読み上げ、音声編集に使用できることを示唆しています。そこでは、人の録音を編集し、テキスト トランスクリプションから変更することができます (最初に言っていないことを言わせる)。などの他のジェネレーティブ AI モデルと組み合わせたオーディオ コンテンツを作成するため GPT-3.

Microsoft アイヴァリー

Microsoft は VALL-E を「ニューラル コーデック言語モデル」と呼び、これは Meta が 2022 年 月に発表した EnCodec と呼ばれる技術に基づいています。通常、波形を操作して音声を合成する他のテキスト読み上げ方式とは異なり、VALL-E は離散音声を生成します。テキストおよび音響プロンプトからのコーデック コード。基本的に、人の声がどのように聞こえるかを分析し、EnCodec のおかげでその情報を個別のコンポーネント (「トークン」と呼ばれる) に分解し、トレーニング データを使用して、その声が屋外で他のフレーズを話した場合にどのように聞こえるかについて「知っている」内容と照合します。 秒間のサンプル。

Microsoft LibriLight と呼ばれる Meta によってコンパイルされたオーディオ ライブラリ上で VALL-E の音声合成機能をトレーニングしました。これには、60 人を超えるアナウンサーによる 7 時間の英語放送が含まれており、そのほとんどは一般に入手可能な LibriVox オーディオブックから抜粋されたものです。

VALL-E は、アナウンサーの声の音色と感情的なトーンを保存することに加えて、オーディオ サンプルの「音響環境」をシミュレートすることもできます。たとえば、サンプルが電話での会話から取得された場合、合成されたオーディオ出力は電話での会話の音響特性と周波数特性をシミュレートします。サンプルも Microsoft VALL-E が声の音色のバリエーションを生成できることを示しています。

Microsoft アイヴァリー

おそらく、VALL-E には詐欺や欺瞞を潜在的に促進する能力があるため、 Microsoft は他の人が実験できるように VALL-E コードを提供していないため、その機能をテストすることはできません。研究者らは、この技術がもたらす可能性のある社会的危害の可能性を認識しているようだ。記事の結論で、彼らは次のように書いています。

「VALL-E は話者の身元を保持する音声を合成できるため、音声識別のなりすましや特定の話者になりすますなど、モデルの悪用の潜在的なリスクを伴う可能性があります。 このようなリスクを軽減するために、オーディオ クリップが VALL-E を使用して合成されたかどうかを識別するための認識モデルが構築されます。」

ウクライナがロシアの侵略者と戦うのを助けることができます。 これを行う最善の方法は、ウクライナ軍に資金を寄付することです。 セーブライフ または公式ページから NBU.

また読む:

サインアップ
について通知する
ゲスト

0 コメント
埋め込まれたレビュー
すべてのコメントを表示