Infinix Nula 30
Root Nation Новини IT novinky Nová AI Microsoft imituje hlas akejkoľvek osoby z 3-sekundovej zvukovej ukážky

Nová AI Microsoft imituje hlas akejkoľvek osoby z 3-sekundovej zvukovej ukážky

Microsoft AI VALL-E

Vo štvrtok výskumníci Microsoft oznámila nový model umelej inteligencie (AI) s názvom VALL-E, ktorý dokáže presne napodobniť ľudský hlas, keď dostane trojsekundovú zvukovú vzorku. Akonáhle sa naučí konkrétny hlas, VALL-E dokáže syntetizovať zvuk tejto osoby, ktorá hovorí čokoľvek, pričom zachová emocionálny tón reproduktora.

Jeho autori navrhujú, aby sa VALL-E dalo použiť na vysokokvalitný prevod textu na reč, úpravu reči, kde je možné záznam osoby upraviť a zmeniť z prepisu textu (prinútiť ju povedať veci, ktoré pôvodne nepovedali) a na vytváranie zvukového obsahu kombinovaného s inými generatívnymi modelmi AI ako napr GPT-3.

Microsoft AI VALL-E

Microsoft nazýva VALL-E „Neural Codec Language Model“ a je založený na technológii s názvom EnCodec, ktorú Meta oznámila v októbri 2022. Na rozdiel od iných metód prevodu textu na reč, ktoré zvyčajne syntetizujú reč manipuláciou s priebehmi, VALL-E generuje diskrétny zvuk kódy kodekov z textových a zvukových výziev. V podstate analyzuje, ako človek znie, rozdeľuje tieto informácie na diskrétne komponenty (nazývané „tokeny“) vďaka EnCodec a používa trénovacie údaje na porovnanie toho, čo „vie“ o tom, ako by ten hlas znel, keby hovoril iné frázy vonku. trojsekundovej vzorky.

Microsoft trénoval schopnosti syntézy reči VALL-E na zvukovej knižnici zostavenej spoločnosťou Meta s názvom LibriLight. Obsahuje 60 7 hodín vysielania v anglickom jazyku od viac ako XNUMX XNUMX hlásateľov, väčšinou prevzatých z verejne dostupných audiokníh LibriVox.

Okrem zachovania zafarbenia hlasu a emocionálneho tónu hlásateľa dokáže VALL-E simulovať aj „akustické prostredie“ zvukovej ukážky. Napríklad, ak bola vzorka získaná z telefonického rozhovoru, syntetizovaný zvukový výstup bude simulovať akustické a frekvenčné vlastnosti telefonického rozhovoru. Aj vzorky Microsoft demonštrujú, že VALL-E dokáže generovať variácie vokálneho zafarbenia.

Microsoft AI VALL-E

Možno kvôli schopnosti VALL-E potenciálne uľahčiť podvody a podvody, Microsoft neposkytol kód VALL-E ostatným na experimentovanie, takže nebudeme môcť otestovať jeho schopnosti. Zdá sa, že výskumníci si uvedomujú potenciálne sociálne škody, ktoré by táto technológia mohla priniesť. V závere článku píšu:

„Vzhľadom na to, že VALL-E dokáže syntetizovať reč, ktorá zachováva identitu rečníka, môže so sebou niesť potenciálne riziká zneužitia modelu, ako je falšovanie hlasovej identifikácie alebo vydávanie sa za konkrétneho rečníka. Na zníženie takýchto rizík sa vytvorí model rozpoznávania, ktorý rozlíši, či bol zvukový klip syntetizovaný pomocou VALL-E."

Môžete pomôcť Ukrajine v boji proti ruským útočníkom. Najlepším spôsobom, ako to urobiť, je darovať finančné prostriedky Ozbrojeným silám Ukrajiny prostredníctvom Zachrániť život alebo cez oficiálnu stránku NBU.

Prečítajte si tiež:

Prihlásiť Se
Upozorniť na
host

0 Komentáre
Vložené recenzie
Zobraziť všetky komentáre
0
Milujeme vaše myšlienky, prosím komentujte.x