Root Nation消息资讯资讯新人工智能 Microsoft 从 3 秒音频样本中模仿任何人的声音

新人工智能 Microsoft 从 3 秒音频样本中模仿任何人的声音

-

周四,研究人员 Microsoft 宣布了一种名为 VALL-E 的新人工智能 (AI) 模型,在提供三秒音频样本时可以准确模仿人声。一旦学习到特定的声音,VALL-E 就可以合成该人说话的音频,同时保留说话者的情绪基调。

它的作者建议 VALL-E 可用于高质量的文本到语音、语音编辑,其中一个人的录音可以从文本转录中编辑和更改(让他们说出他们最初没有说的话),以及用于结合其他生成式 AI 模型创建音频内容,例如 GPT-3.

Microsoft 爱谷-E

Microsoft 将 VALL-E 称为“神经编解码器语言模型”,它基于 Meta 于 2022 年 月宣布的一种名为 EnCodec 的技术。与通常通过操纵波形来合成语音的其他文本转语音方法不同,VALL-E 生成离散音频来自文本和声音提示的编解码器代码。它基本上分析一个人的声音,通过 EnCodec 将这些信息分解为离散的组件(称为“令牌”),并使用训练数据来匹配它“知道”的声音,如果它在外面说其他短语的话,它会是什么样子。三秒样本的。

Microsoft 在 Meta 编译的名为 LibriLight 的音频库上训练了 VALL-E 的语音合成能力。它包含来自 60 多名播音员的 7 小时的英语广播,大部分摘自公开的 LibriVox 有声读物。

除了保留播音员的音质和情绪基调外,VALL-E还可以模拟音频样本的“声学环境”。例如,如果样本是从电话交谈中获得的,则合成的音频输出将模拟电话交谈的声学和频率特性。还有样品 Microsoft 证明 VALL-E 可以产生声音音色变化。

Microsoft 爱谷-E

也许是由于 VALL-E 具有促进欺诈和欺骗的潜在能力, Microsoft 尚未提供VALL-E代码供其他人进行实验,因此我们无法测试其功能。研究人员似乎意识到这项技术可能带来的潜在社会危害。他们在文章的结论中写道:

“因为 VALL-E 可以合成保留说话者身份的语音,它可能会带来模型滥用的潜在风险,例如欺骗语音识别或冒充特定说话者。 为了降低这种风险,将建立一个识别模型来区分音频片段是否是使用 VALL-E 合成的。”

你可以帮助乌克兰对抗俄罗斯侵略者。 最好的方法是通过以下方式向乌克兰武装部队捐款 拯救生命 或通过官方页面 NBU.

另请阅读:

DzhereloArstechnica
注册
通知关于
客人

0 评论
嵌入式评论
查看所有评论