Root NationНовиниIT новиниНов AI Microsoft имитира гласа на всеки човек от 3-секундна аудио проба

Нов AI Microsoft имитира гласа на всеки човек от 3-секундна аудио проба

-

В четвъртък изследователите Microsoft обяви нов модел с изкуствен интелект (AI), наречен VALL-E, който може точно да имитира човешки глас, когато му бъде даден трисекунден аудио образец. След като научи конкретен глас, VALL-E може да синтезира звук от този човек, който казва нещо, като същевременно запазва емоционалния тон на говорещия.

Неговите автори предполагат, че VALL-E може да се използва за висококачествено преобразуване на текст в реч, редактиране на реч, където записът на човек може да бъде редактиран и променен от текстова транскрипция (като ги кара да казват неща, които първоначално не са казали) и за създаване на аудио съдържание, комбинирано с други генеративни AI модели, като напр GPT-3.

Microsoft AI ВАЛ-Е

Microsoft нарича VALL-E „Езиков модел на невронен кодек“ и се основава на технология, наречена EnCodec, която Meta обяви през октомври 2022 г. За разлика от други методи за преобразуване на текст в реч, които обикновено синтезират реч чрез манипулиране на вълнови форми, VALL-E генерира дискретно аудио кодеци от текстови и акустични указания. Той основно анализира как звучи човек, разделя тази информация на отделни компоненти (наречени „жетони“) благодарение на EnCodec и използва данни за обучение, за да съпостави това, което „знае“ за това как би звучал този глас, ако произнесе други фрази навън от трисекундната проба.

Microsoft обучи способностите на VALL-E за синтез на реч в аудио библиотека, компилирана от Meta, наречена LibriLight. Той съдържа 60 7 часа предавания на английски език от повече от XNUMX XNUMX говорители, взети предимно от публично достъпни аудиокниги LibriVox.

В допълнение към запазването на тембъра на гласа и емоционалния тон на диктора, VALL-E може също да симулира "акустичната среда" на аудио пробата. Например, ако пробата е получена от телефонен разговор, синтезираният аудио изход ще симулира акустичните и честотните свойства на телефонния разговор. Също мостри Microsoft демонстрират, че VALL-E може да генерира вариации на вокален тембър.

Microsoft AI ВАЛ-Е

Може би поради способността на VALL-E потенциално да улеснява измама и измама, Microsoft не е предоставил кода VALL-E, за да могат други да експериментират, така че няма да можем да тестваме неговите възможности. Изследователите изглежда са наясно с потенциалната социална вреда, която тази технология може да причини. В заключение на статията те пишат:

„Тъй като VALL-E може да синтезира реч, която запазва самоличността на говорещия, може да носи потенциални рискове от злоупотреба с модела, като фалшива гласова идентификация или имитиране на конкретен говорещ. За да се намалят подобни рискове, ще бъде изграден модел за разпознаване, за да се разграничи дали даден аудио клип е бил синтезиран с помощта на VALL-E."

Можете да помогнете на Украйна да се бори срещу руските нашественици. Най-добрият начин да направите това е да дарите средства на въоръжените сили на Украйна чрез Savelife или през официалната страница НБУ.

Прочетете също:

DzhereloArstechnica
Регистрирай се
Уведомете за
гост

0 Коментари
Вградени рецензии
Вижте всички коментари
Други статии
Абонирайте се за актуализации
Популярни сега