Root NationZprávyIT novinyNová AI Microsoft napodobuje hlas jakékoli osoby z 3sekundové zvukové ukázky

Nová AI Microsoft napodobuje hlas jakékoli osoby z 3sekundové zvukové ukázky

-

Ve čtvrtek výzkumníci Microsoft oznámila nový model umělé inteligence (AI) s názvem VALL-E, který dokáže přesně napodobit lidský hlas, když dostane třísekundový zvukový vzorek. Jakmile se naučí konkrétní hlas, může VALL-E syntetizovat zvuk této osoby, která říká cokoli, a přitom zachovat emocionální tón mluvčího.

Jeho autoři navrhují, že VALL-E lze použít pro vysoce kvalitní převod textu na řeč, úpravy řeči, kdy lze záznam osoby upravit a změnit z přepisu textu (přimět je říkat věci, které původně neřekli) a pro vytváření zvukového obsahu kombinovaného s jinými generativními modely umělé inteligence, jako je např GPT-3.

Microsoft AI VALL-E

Microsoft nazývá VALL-E „Neural Codec Language Model“ a je založen na technologii zvané EnCodec, kterou Meta oznámila v říjnu 2022. Na rozdíl od jiných metod převodu textu na řeč, které obvykle syntetizují řeč manipulací s průběhy, VALL-E generuje diskrétní zvuk kódy kodeků z textových a zvukových výzev. V zásadě analyzuje, jak člověk zní, rozděluje tyto informace na diskrétní komponenty (nazývané „tokeny“) díky EnCodec a používá trénovací data, aby odpovídala tomu, co „ví“ o tom, jak by ten hlas zněl, kdyby mluvil jiné fráze venku. třísekundového vzorku.

Microsoft trénoval schopnosti syntézy řeči VALL-E na zvukové knihovně sestavené společností Meta s názvem LibriLight. Obsahuje 60 7 hodin vysílání v anglickém jazyce od více než XNUMX XNUMX hlasatelů, většinou převzatých z veřejně dostupných audioknih LibriVox.

Kromě zachování zabarvení hlasu a emocionálního vyznění hlasatele dokáže VALL-E také simulovat „akustické prostředí“ zvukové ukázky. Pokud byl vzorek například získán z telefonního rozhovoru, syntetizovaný zvukový výstup bude simulovat akustické a frekvenční vlastnosti telefonního rozhovoru. Také vzorky Microsoft demonstrovat, že VALL-E může generovat variace vokálního zabarvení.

Microsoft AI VALL-E

Možná kvůli schopnosti VALL-E potenciálně usnadňovat podvody a podvody, Microsoft neposkytla kód VALL-E ostatním k experimentování, takže nebudeme moci otestovat jeho schopnosti. Zdá se, že výzkumníci si uvědomují potenciální sociální škody, které by tato technologie mohla přinést. V závěru článku píšou:

„Vzhledem k tomu, že VALL-E dokáže syntetizovat řeč, která zachovává identitu mluvčího, může nést potenciální rizika zneužití modelu, jako je falšování hlasové identifikace nebo vydávání se za konkrétního mluvčího. Aby se tato rizika snížila, bude vytvořen model rozpoznávání, který bude rozlišovat, zda byl zvukový klip syntetizován pomocí VALL-E."

Můžete pomoci Ukrajině v boji proti ruským vetřelcům. Nejlepším způsobem, jak toho dosáhnout, je darovat finanční prostředky ozbrojeným silám Ukrajiny prostřednictvím Zachraňte život nebo přes oficiální stránku NBÚ.

Přečtěte si také:

Dzhereloarsetechnica
Přihlásit se
Upozornit na
host

0 Komentáře
Vložené recenze
Zobrazit všechny komentáře
Další články
Přihlaste se k odběru aktualizací
Nyní populární