Root Nation訊息資訊科技資訊Meta 的語音 AI 可識別 4 多種口頭語言

Meta 的語音 AI 可識別 4 多種口頭語言

-

Meta 創建了一個不是 ChatGPT 克隆的 AI 語言模型。 該公司的 Massively Multilingual Speech (MMS) 項目可以識別 4 多種口頭語言並以 000 多種語言再現語音(文本到語音)。 與大多數公開宣布的 AI 項目一樣,Meta 今天開放 MMS 以幫助保護語言多樣性並鼓勵研究人員開發它。 該公司寫道:“今天,我們公開分享我們的模型和代碼,以便研究界的其他成員可以在我們的工作基礎上進行構建。” “感謝這項工作,我們希望為保護世界上令人難以置信的語言多樣性做出一點貢獻。”

Meta

語音識別和文本轉語音模型通常需要對數千小時的錄音進行訓練,並附帶轉錄標籤。 但對於工業化國家未廣泛使用的語言——其中許多語言在未來幾十年有滅絕的危險——“這些數據根本不存在,”梅塔說。

Meta 採用了一種非常規的方法來收集音頻數據:收聽翻譯宗教文本的錄音。 “我們求助於聖經等宗教文本,這些文本已被翻譯成多種不同的語言,其譯文已被廣泛研究用於基於文本的翻譯研究,”該公司表示。 “這些翻譯有公開的錄音,人們可以用不同的語言閱讀這些文本。” 通過包括聖經和類似文本中未標記的條目,Meta 研究人員將模型可用的語言數量增加到 4 多種。

“雖然錄音的內容是宗教的,但我們的分析表明,這不會影響模型產生更多宗教言論,”Meta 寫道。 “我們認為這是因為我們使用了連接主義時間分類 (CTC) 方法,與用於語音識別的大型語言模型 (LLM) 或序列模型相比,這種方法的局限性要大得多。” 此外,儘管大多數宗教文本都是由男性閱讀的,但這並沒有導致男性偏見——該系統同樣能很好地識別女性和男性的聲音。

在訓練了一個對齊模型以使數據更有用之後,Meta 使用了 wav2vec 2.0,這是該公司的“自我監督語言表示學習”模型,可以在未標記的數據上學習。 非傳統數據源和自主語音模型的結合產生了令人印象深刻的結果。 “我們的結果表明,與現有模型相比,大規模多語言廣播模型表現良好,覆蓋的語言是現有模型的 10 倍。” 特別是,Meta 將 MMS 與 OpenAI 的 Whisper 進行了比較,結果超出了預期。 “我們發現,在 Massively Multilingual Speech 數據上訓練的模型只有一半的單詞錯誤百分比,但 Massively Multilingual Speech 涵蓋的語言是其 11 倍。”

Meta 警告說,它的新模型並不完美。 “例如,語音到文本模型可能會錯誤地翻譯個別單詞或短語,”該公司寫道。 “根據結果,這可能會導致攻擊性和/或不准確的語言。 我們仍然相信,AI 社區內部的協作對於負責任地開發 AI 技術至關重要。”

Meta

現在 Meta 發布了 MMS 用於開源研究,希望扭轉全球語言數量減少到 100 種或更少的趨勢,其中大部分語言都得到主要技術的支持。 她看到了一個輔助技術、TTS 甚至 VR/AR 技術讓每個人都能用母語說話和學習的世界。 它說:“我們設想一個技術具有相反效果的世界,鼓勵人們保持語言的活力,因為他們可以在說母語的同時獲取信息和使用技術。”

另請閱讀:

來源癮科技
註冊
通知有關
客人

0 留言
嵌入式評論
查看所有評論