新人工智能 Microsoft 可以模仿任何人的声音

周四，研究人员 Microsoft 宣布了一种名为 VALL-E 的新人工智能 (AI) 模型，在提供三秒音频样本时可以准确模仿人声。一旦学习到特定的声音，VALL-E 就可以合成该人说话的音频，同时保留说话者的情绪基调。

它的作者建议 VALL-E 可用于高质量的文本到语音、语音编辑，其中一个人的录音可以从文本转录中编辑和更改（让他们说出他们最初没有说的话），以及用于结合其他生成式 AI 模型创建音频内容，例如 GPT-3.

Microsoft 将 VALL-E 称为“神经编解码器语言模型”，它基于 Meta 于 2022 年月宣布的一种名为 EnCodec 的技术。与通常通过操纵波形来合成语音的其他文本转语音方法不同，VALL-E 生成离散音频来自文本和声音提示的编解码器代码。它基本上分析一个人的声音，通过 EnCodec 将这些信息分解为离散的组件（称为“令牌”），并使用训练数据来匹配它“知道”的声音，如果它在外面说其他短语的话，它会是什么样子。三秒样本的。

Microsoft 在 Meta 编译的名为 LibriLight 的音频库上训练了 VALL-E 的语音合成能力。它包含来自 60 多名播音员的 7 小时的英语广播，大部分摘自公开的 LibriVox 有声读物。

除了保留播音员的音质和情绪基调外，VALL-E还可以模拟音频样本的“声学环境”。例如，如果样本是从电话交谈中获得的，则合成的音频输出将模拟电话交谈的声学和频率特性。还有样品 Microsoft 证明 VALL-E 可以产生声音音色变化。

也许是由于 VALL-E 具有促进欺诈和欺骗的潜在能力， Microsoft 尚未提供VALL-E代码供其他人进行实验，因此我们无法测试其功能。研究人员似乎意识到这项技术可能带来的潜在社会危害。他们在文章的结论中写道：

“因为 VALL-E 可以合成保留说话者身份的语音，它可能会带来模型滥用的潜在风险，例如欺骗语音识别或冒充特定说话者。为了降低这种风险，将建立一个识别模型来区分音频片段是否是使用 VALL-E 合成的。”

你可以帮助乌克兰对抗俄罗斯侵略者。最好的方法是通过以下方式向乌克兰武装部队捐款拯救生命或通过官方页面 NBU.

另请阅读：

DzhereloArstechnica

注册

0 评论

嵌入式评论

查看所有评论

其他文章

新人工智能 Microsoft 从 3 秒音频样本中模仿任何人的声音

最近的评论