Root Nation消息资讯资讯Meta 的语音 AI 可识别 4 多种口头语言

Meta 的语音 AI 可识别 4 多种口头语言

-

创建了一个不是 ChatGPT 克隆的 AI 语言模型。 该公司的 Massively Multilingual Speech (MMS) 项目可以识别 4 多种口头语言并以 000 多种语言再现语音(文本到语音)。 与大多数公开宣布的 AI 项目一样,Meta 今天开放 MMS 以帮助保护语言多样性并鼓励研究人员开发它。 该公司写道:“今天,我们公开分享我们的模型和代码,以便研究界的其他成员可以在我们的工作基础上进行构建。” “感谢这项工作,我们希望为保护世界上令人难以置信的语言多样性做出一点贡献。”

元

语音识别和文本转语音模型通常需要对数千小时的录音进行训练,并附带转录标签。 但对于工业化国家未广泛使用的语言——其中许多语言在未来几十年面临灭绝的威胁——“这些数据根本不存在,”梅塔说。

Meta 采用了一种非常规的方法来收集音频数据:收听翻译宗教文本的录音。 “我们求助于圣经等宗教文本,这些文本已被翻译成多种不同的语言,其译文已被广泛研究用于基于文本的翻译研究,”该公司表示。 “这些翻译有公开的录音,人们可以用不同的语言阅读这些文本。” 通过包括圣经和类似文本中未标记的条目,Meta 研究人员将模型可用的语言数量增加到 4 多种。

“虽然录音的内容是宗教的,但我们的分析表明,这不会影响模型产生更多宗教言论,”Meta 写道。 “我们认为这是因为我们使用了连接主义时间分类 (CTC) 方法,与用于语音识别的大型语言模型 (LLM) 或序列模型相比,这种方法的局限性要大得多。” 此外,尽管大多数宗教文本都是由男性阅读的,但这并没有导致男性偏见——该系统同样能很好地识别女性和男性的声音。

在训练了一个对齐模型以使数据更有用之后,Meta 使用了 wav2vec 2.0,这是该公司的“自我监督语言表示学习”模型,可以在未标记的数据上学习。 非传统数据源和自主语音模型的结合产生了令人印象深刻的结果。 “我们的结果表明,与现有模型相比,大规模多语言广播模型表现良好,覆盖的语言是现有模型的 10 倍。” 特别是,Meta 将 MMS 与 OpenAI 的 Whisper 进行了比较,结果超出了预期。 “我们发现,在 Massively Multilingual Speech 数据上训练的模型只有一半的单词错误百分比,但 Massively Multilingual Speech 涵盖的语言是其 11 倍。”

Meta 警告说,它的新模型并不完美。 “例如,语音到文本模型可能会错误地翻译个别单词或短语,”该公司写道。 “根据结果,这可能会导致攻击性和/或不准确的语言。 我们仍然相信,AI 社区内部的协作对于负责任地开发 AI 技术至关重要。”

元

现在 Meta 发布了 MMS 用于开源研究,希望扭转全球语言数量减少到 100 种或更少的趋势,其中大部分语言都得到主要技术的支持。 她看到了一个辅助技术、TTS 甚至 VR/AR 技术让每个人都能用母语说话和学习的世界。 它说:“我们设想一个技术具有相反效果的世界,鼓励人们保持语言的活力,因为他们可以在说母语的同时获取信息和使用技术。”

另请阅读:

Dzherelo瘾科技
注册
通知关于
客人

0 评论
嵌入式评论
查看所有评论