Meta 的语音 AI 可识别 4 多种口头语言

元创建了一个不是 ChatGPT 克隆的 AI 语言模型。该公司的 Massively Multilingual Speech (MMS) 项目可以识别 4 多种口头语言并以 000 多种语言再现语音（文本到语音）。与大多数公开宣布的 AI 项目一样，Meta 今天开放 MMS 以帮助保护语言多样性并鼓励研究人员开发它。该公司写道：“今天，我们公开分享我们的模型和代码，以便研究界的其他成员可以在我们的工作基础上进行构建。” “感谢这项工作，我们希望为保护世界上令人难以置信的语言多样性做出一点贡献。”

语音识别和文本转语音模型通常需要对数千小时的录音进行训练，并附带转录标签。但对于工业化国家未广泛使用的语言——其中许多语言在未来几十年面临灭绝的威胁——“这些数据根本不存在，”梅塔说。

Meta 采用了一种非常规的方法来收集音频数据：收听翻译宗教文本的录音。 “我们求助于圣经等宗教文本，这些文本已被翻译成多种不同的语言，其译文已被广泛研究用于基于文本的翻译研究，”该公司表示。 “这些翻译有公开的录音，人们可以用不同的语言阅读这些文本。” 通过包括圣经和类似文本中未标记的条目，Meta 研究人员将模型可用的语言数量增加到 4 多种。

“虽然录音的内容是宗教的，但我们的分析表明，这不会影响模型产生更多宗教言论，”Meta 写道。 “我们认为这是因为我们使用了连接主义时间分类 (CTC) 方法，与用于语音识别的大型语言模型 (LLM) 或序列模型相比，这种方法的局限性要大得多。” 此外，尽管大多数宗教文本都是由男性阅读的，但这并没有导致男性偏见——该系统同样能很好地识别女性和男性的声音。

在训练了一个对齐模型以使数据更有用之后，Meta 使用了 wav2vec 2.0，这是该公司的“自我监督语言表示学习”模型，可以在未标记的数据上学习。非传统数据源和自主语音模型的结合产生了令人印象深刻的结果。 “我们的结果表明，与现有模型相比，大规模多语言广播模型表现良好，覆盖的语言是现有模型的 10 倍。” 特别是，Meta 将 MMS 与 OpenAI 的 Whisper 进行了比较，结果超出了预期。 “我们发现，在 Massively Multilingual Speech 数据上训练的模型只有一半的单词错误百分比，但 Massively Multilingual Speech 涵盖的语言是其 11 倍。”

Meta 警告说，它的新模型并不完美。 “例如，语音到文本模型可能会错误地翻译个别单词或短语，”该公司写道。 “根据结果，这可能会导致攻击性和/或不准确的语言。我们仍然相信，AI 社区内部的协作对于负责任地开发 AI 技术至关重要。”

现在 Meta 发布了 MMS 用于开源研究，希望扭转全球语言数量减少到 100 种或更少的趋势，其中大部分语言都得到主要技术的支持。她看到了一个辅助技术、TTS 甚至 VR/AR 技术让每个人都能用母语说话和学习的世界。它说：“我们设想一个技术具有相反效果的世界，鼓励人们保持语言的活力，因为他们可以在说母语的同时获取信息和使用技术。”

另请阅读：

Dzherelo瘾科技

注册

0 评论

嵌入式评论

查看所有评论

其他文章

Meta 的语音 AI 可识别 4 多种口头语言

最近的评论