Root NationВестиИТ вестиНова вештачка интелигенција Microsoft го имитира гласот на која било личност од аудио примерок од 3 секунди

Нова вештачка интелигенција Microsoft го имитира гласот на која било личност од аудио примерок од 3 секунди

-

Во четвртокот, истражувачите Microsoft објави нов модел на вештачка интелигенција (AI) наречен VALL-E кој може точно да имитира човечки глас кога ќе му се даде аудио примерок од три секунди. Откако ќе научи одреден глас, VALL-E може да синтетизира аудио од таа личност што кажува што било, додека го зачувува емотивниот тон на говорникот.

Неговите автори сугерираат дека VALL-E може да се користи за висококвалитетно претворање текст во говор, уредување на говор, каде што снимката на една личност може да се уредува и менува од транскрипција на текст (натерувајќи ги да кажуваат работи што првично не ги кажале) и за креирање аудио содржина во комбинација со други генеративни модели на вештачка интелигенција како на пр GPT-3.

Microsoft AI VALL-E

Microsoft го нарекува VALL-E „Јазичен модел на невронски кодек“ и се заснова на технологија наречена EnCodec што Мета ја објави во октомври 2022 година. За разлика од другите методи на текст-во-говор, кои обично синтетизираат говор со манипулирање со бранови форми, VALL-E генерира дискретно аудио кодек кодови од текст и акустични инструкции. Во основа анализира како звучи една личност, ги разложува тие информации на дискретни компоненти (наречени „токени“) благодарение на EnCodec и користи податоци за обука за да одговара на она што „знае“ за тоа како би звучел тој глас ако зборува други фрази надвор. од примерокот од три секунди.

Microsoft ги обучи способностите за синтеза на говор на VALL-E на аудио библиотека составена од Мета наречена LibriLight. Содржи 60 часа емитувања на англиски јазик од повеќе од 7 најавувачи, главно преземени од јавно достапни аудио книги на LibriVox.

Покрај зачувувањето на гласовниот тембр и емотивниот тон на најавувачот, VALL-E може да симулира и „акустична средина“ на аудио примерокот. На пример, ако примерокот е добиен од телефонски разговор, синтетизираниот аудио излез ќе ги симулира акустичните и фреквентните својства на телефонскиот разговор. Исто така примероци Microsoft демонстрираат дека VALL-E може да генерира варијации на гласовниот тембр.

Microsoft AI VALL-E

Можеби поради способноста на VALL-E потенцијално да ги олесни измамите и измамите, Microsoft не го обезбеди кодот VALL-E за други да експериментираат, така што нема да можеме да ги тестираме неговите способности. Се чини дека истражувачите се свесни за потенцијалната социјална штета што оваа технологија може да ја донесе. Во заклучокот на статијата, тие пишуваат:

„Бидејќи VALL-E може да синтетизира говор што го зачувува идентитетот на говорникот, може да носи потенцијални ризици од злоупотреба на моделот, како што е измама на гласовна идентификација или имитирање на одреден звучник. За да се намалат ваквите ризици, ќе се изгради модел за препознавање за да се разликува дали аудио клипот е синтетизиран со помош на VALL-E.

Можете да и помогнете на Украина да се бори против руските напаѓачи. Најдобар начин да го направите ова е да донирате средства за вооружените сили на Украина преку Савелифе или преку официјалната страница Bвезди.

Прочитајте исто така:

Пријавете се
Известете за
гостин

0 коментари
Вградени критики
Прикажи ги сите коментари
Други статии
Претплатете се за ажурирања
Популарно сега