Meta 的語音 AI 可識別 4 多種口頭語言

Meta 創建了一個不是 ChatGPT 克隆的 AI 語言模型。該公司的 Massively Multilingual Speech (MMS) 項目可以識別 4 多種口頭語言並以 000 多種語言再現語音（文本到語音）。與大多數公開宣布的 AI 項目一樣，Meta 今天開放 MMS 以幫助保護語言多樣性並鼓勵研究人員開發它。該公司寫道：“今天，我們公開分享我們的模型和代碼，以便研究界的其他成員可以在我們的工作基礎上進行構建。” “感謝這項工作，我們希望為保護世界上令人難以置信的語言多樣性做出一點貢獻。”

語音識別和文本轉語音模型通常需要對數千小時的錄音進行訓練，並附帶轉錄標籤。但對於工業化國家未廣泛使用的語言——其中許多語言在未來幾十年有滅絕的危險——“這些數據根本不存在，”梅塔說。

Meta 採用了一種非常規的方法來收集音頻數據：收聽翻譯宗教文本的錄音。 “我們求助於聖經等宗教文本，這些文本已被翻譯成多種不同的語言，其譯文已被廣泛研究用於基於文本的翻譯研究，”該公司表示。 “這些翻譯有公開的錄音，人們可以用不同的語言閱讀這些文本。” 通過包括聖經和類似文本中未標記的條目，Meta 研究人員將模型可用的語言數量增加到 4 多種。

“雖然錄音的內容是宗教的，但我們的分析表明，這不會影響模型產生更多宗教言論，”Meta 寫道。 “我們認為這是因為我們使用了連接主義時間分類 (CTC) 方法，與用於語音識別的大型語言模型 (LLM) 或序列模型相比，這種方法的局限性要大得多。” 此外，儘管大多數宗教文本都是由男性閱讀的，但這並沒有導致男性偏見——該系統同樣能很好地識別女性和男性的聲音。

在訓練了一個對齊模型以使數據更有用之後，Meta 使用了 wav2vec 2.0，這是該公司的“自我監督語言表示學習”模型，可以在未標記的數據上學習。非傳統數據源和自主語音模型的結合產生了令人印象深刻的結果。 “我們的結果表明，與現有模型相比，大規模多語言廣播模型表現良好，覆蓋的語言是現有模型的 10 倍。” 特別是，Meta 將 MMS 與 OpenAI 的 Whisper 進行了比較，結果超出了預期。 “我們發現，在 Massively Multilingual Speech 數據上訓練的模型只有一半的單詞錯誤百分比，但 Massively Multilingual Speech 涵蓋的語言是其 11 倍。”

Meta 警告說，它的新模型並不完美。 “例如，語音到文本模型可能會錯誤地翻譯個別單詞或短語，”該公司寫道。 “根據結果，這可能會導致攻擊性和/或不准確的語言。我們仍然相信，AI 社區內部的協作對於負責任地開發 AI 技術至關重要。”

現在 Meta 發布了 MMS 用於開源研究，希望扭轉全球語言數量減少到 100 種或更少的趨勢，其中大部分語言都得到主要技術的支持。她看到了一個輔助技術、TTS 甚至 VR/AR 技術讓每個人都能用母語說話和學習的世界。它說：“我們設想一個技術具有相反效果的世界，鼓勵人們保持語言的活力，因為他們可以在說母語的同時獲取信息和使用技術。”

另請閱讀：

來源癮科技

註冊

0 留言

嵌入式評論

查看所有評論

其他文章

Meta 的語音 AI 可識別 4 多種口頭語言

最近的評論