Root NationJaunumiIT laikrakstsJauns AI Microsoft atdarina jebkuras personas balsi no 3 sekunžu audio parauga

Jauns AI Microsoft atdarina jebkuras personas balsi no 3 sekunžu audio parauga

-

Ceturtdien pētnieki Microsoft paziņoja par jaunu mākslīgā intelekta (AI) modeli ar nosaukumu VALL-E, kas var precīzi atdarināt cilvēka balsi, ja tiek iegūts trīs sekunžu audio paraugs. Kad VALL-E ir iemācījies noteiktu balsi, tas var sintezēt šīs personas skaņu, kas kaut ko saka, vienlaikus saglabājot runātāja emocionālo toni.

Tās autori ierosina, ka VALL-E var izmantot augstas kvalitātes teksta pārvēršanai runā, runas rediģēšanai, kur personas ierakstu var rediģēt un mainīt no teksta transkripcijas (liekot viņam pateikt lietas, ko viņi sākotnēji nav teikuši), un audio satura izveidei apvienojumā ar citiem ģeneratīvajiem AI modeļiem, piemēram, GPT-3.

Microsoft AI VALL-E

Microsoft sauc VALL-E par "neironu kodeku valodas modeli", un tas ir balstīts uz tehnoloģiju EnCodec, par kuru Meta paziņoja 2022. gada oktobrī. Atšķirībā no citām teksta pārvēršanas runā metodēm, kuras parasti sintezē runu, manipulējot ar viļņu formām, VALL-E ģenerē diskrētu audio. kodeku kodi no teksta un akustiskām uzvednēm. Tā pamatā analizē, kā cilvēks izklausās, sadala šo informāciju atsevišķos komponentos (ko sauc par "žetoniem"), pateicoties EnCodec, un izmanto apmācības datus, lai saskaņotu to, ko tā "zina" par to, kā šī balss izklausītos, ja tā runātu citas frāzes ārpusē. no trīs sekunžu parauga.

Microsoft apmācīja VALL-E runas sintēzes iespējas Meta apkopotajā audio bibliotēkā ar nosaukumu LibriLight. Tajā ir 60 7 stundu raidījumu angļu valodā no vairāk nekā XNUMX diktoriem, galvenokārt no publiski pieejamām LibriVox audiogrāmatām.

Papildus diktora balss tembra un emocionālā toņa saglabāšanai VALL-E var arī simulēt audio parauga "akustisko vidi". Piemēram, ja paraugs tika iegūts no telefona sarunas, sintezētā audio izvade simulēs telefona sarunas akustiskās un frekvences īpašības. Arī paraugi Microsoft parādīt, ka VALL-E var radīt balss tembra variācijas.

Microsoft AI VALL-E

Iespējams, pateicoties VALL-E spējai veicināt krāpšanu un maldināšanu, Microsoft nav nodrošinājis VALL-E kodu, lai citi varētu eksperimentēt, tāpēc mēs nevarēsim pārbaudīt tā iespējas. Šķiet, ka pētnieki apzinās iespējamo sociālo kaitējumu, ko šī tehnoloģija var radīt. Raksta noslēgumā viņi raksta:

"Tā kā VALL-E var sintezēt runu, kas saglabā runātāja identitāti, tas var radīt iespējamus modeļu ļaunprātīgas izmantošanas riskus, piemēram, balss identifikācijas viltošanu vai uzdošanos par konkrētu runātāju. Lai samazinātu šādus riskus, tiks izveidots atpazīšanas modelis, lai atšķirtu, vai audioklips ir sintezēts, izmantojot VALL-E.

Jūs varat palīdzēt Ukrainai cīnīties pret krievu iebrucējiem. Labākais veids, kā to izdarīt, ir ziedot līdzekļus Ukrainas bruņotajiem spēkiem Savelife vai izmantojot oficiālo lapu NBU.

Lasi arī:

Pierakstīties
Paziņot par
viesis

0 komentāri
Iegultās atsauksmes
Skatīt visus komentārus
Citi raksti
Abonējiet atjauninājumus
Tagad populārs