Meta の音声 AI は 4 以上の話し言葉を認識します

Meta ChatGPT クローンではない AI 言語モデルを作成しました。同社の大規模多言語音声 (MMS) プロジェクトは、4 以上の話し言葉を認識し、000 以上の言語で音声を再生 (テキスト読み上げ) できます。公表されているほとんどの AI プロジェクトと同様に、Meta は現在、言語の多様性を維持し、研究者による開発を奨励するために MMS をオープンアクセスにしています。「本日、私たちは研究コミュニティの他のメンバーが私たちの成果を基にして構築できるよう、モデルとコードを公開します」と同社は書いている。「この取り組みのおかげで、私たちは世界の驚くべき言語多様性の保存に少しでも貢献したいと考えています。」

音声認識およびテキスト読み上げモデルは通常、転写ラベルを伴う数千時間の音声録音に関するトレーニングを必要とします。しかし、先進国で広く話されていない言語（その多くは今後数十年で絶滅の危機に瀕している）については、「このデータはまったく存在しない」とメタ氏は言う。

メタは、音声データの収集に型破りなアプローチを採用しました。それは、翻訳された宗教文書の音声録音を聞くことでした。「私たちは、さまざまな言語に翻訳されており、テキストベースの翻訳研究のためにその翻訳が広く研究されている聖書などの宗教文書に注目しました」と同社は述べた。「これらの翻訳には、さまざまな言語でこれらのテキストを読んでいる人々の音声録音が公開されています。」メタ研究者らは、聖書や同様のテキストのマークのない項目を含めることで、モデルで利用できる言語の数を 4 以上に増やしました。

「音声録音の内容は宗教的なものですが、私たちの分析では、これがモデルによるより宗教的な言語の生成に影響を及ぼさないことが示されています」とメタ氏は書いています。「これは、音声認識の大規模言語モデル (LLM) やシーケンスモデルと比較してはるかに制限されたコネクショニスト時間分類 (CTC) アプローチを使用しているためであると考えています。」また、宗教文書の大部分は男性によって読まれているという事実にもかかわらず、これは男性の偏見にはつながりませんでした。システムは女性と男性の両方の声を同等に認識しました。

データをより使いやすくするためにアライメントモデルをトレーニングした後、Meta は、ラベルのないデータで学習できる同社の「自己教師あり言語表現学習」モデルである wav2vec 2.0 を使用しました。従来とは異なるデータソースと自律的音声モデルの組み合わせにより、印象的な結果が得られました。「私たちの結果は、大量の多言語放送のモデルが既存のモデルと比較して優れたパフォーマンスを示し、10 倍以上の言語をカバーしていることを示しています。」特に、Meta は MMS と OpenAI の Whisper を比較し、その結果は予想を上回りました。「Massively Multilingual Speech データでトレーニングされたモデルの単語エラーの割合は半分ですが、Massively Multilingual Speech は 11 倍以上の言語をカバーしていることがわかりました。」

Meta は、新しいモデルは完璧ではないと警告しています。「たとえば、音声テキスト変換モデルでは個々の単語やフレーズが誤って翻訳される可能性があるリスクがあります」と同社は書いている。「結果によっては、攻撃的または不正確な言葉遣いにつながる可能性があります。私たちは、AI コミュニティ内のコラボレーションが AI テクノロジーの責任ある開発にとって重要であると信じ続けています。」

Meta はオープンソース研究用に MMS をリリースしたため、世界中の言語の数が 100 以下に減り、そのほとんどが主要なテクノロジーでサポートされているという傾向を逆転させたいと考えています。彼女は、支援テクノロジー、TTS、さらには VR / AR テクノロジーによって、誰もが母国語で話し、学ぶことができる世界を目の当たりにしています。「私たちは、テクノロジーが逆の効果をもたらし、人々が母国語を話しながら情報にアクセスしテクノロジーを利用できるようになるため、言語を維持するよう奨励する世界を構想しています。」

また読む：

ソースEngadgetの

サインアップ

0 コメント

埋め込まれたレビュー

すべてのコメントを表示

その他の記事

Meta の音声 AI は 4 以上の話し言葉を認識します

最近のコメント