Ny AI Microsoft kan imitere stemmen til enhver person

Torsdag, forskere Microsoft kunngjorde en ny kunstig intelligens (AI) modell kalt VALL-E som nøyaktig kan etterligne en menneskelig stemme når den gis en tre-sekunders lydprøve. Når den først har lært en bestemt stemme, kan VALL-E syntetisere lyd av den personen som sier hva som helst, samtidig som den emosjonelle tonen til høyttaleren bevares.

Forfatterne foreslår at VALL-E kan brukes til høykvalitets tekst-til-tale, taleredigering, der en persons opptak kan redigeres og endres fra en teksttranskripsjon (får dem si ting de ikke opprinnelig sa), og for å lage lydinnhold kombinert med andre generative AI-modeller som f.eks GPT-3.

Microsoft kaller ALL-E en "Neural Codec Language Model", og den er basert på en teknologi kalt EnCodec som Meta kunngjorde i oktober 2022. I motsetning til andre tekst-til-tale-metoder, som vanligvis syntetiserer tale ved å manipulere bølgeformer, genererer VAL-E diskret lyd kodekkoder fra tekst og akustiske meldinger. Den analyserer i utgangspunktet hvordan en person høres ut, bryter den informasjonen ned i diskrete komponenter (kalt "tokens") takket være EnCodec, og bruker treningsdata for å matche hva den "vet" om hvordan stemmen ville høres ut hvis den snakket andre fraser utenfor. av prøven på tre sekunder.

Microsoft trent ALL-Es talesyntesefunksjoner på et lydbibliotek kompilert av Meta kalt LibriLight. Den inneholder 60 7 timer med engelskspråklige sendinger fra mer enn XNUMX kunngjørere, for det meste hentet fra offentlig tilgjengelige LibriVox-lydbøker.

I tillegg til å bevare stemmens klang og emosjonelle tone til taleren, kan VALL-E også simulere det "akustiske miljøet" til lydeksemplet. For eksempel, hvis prøven ble hentet fra en telefonsamtale, vil den syntetiserte lydutgangen simulere de akustiske og frekvensegenskapene til telefonsamtalen. Også prøver Microsoft demonstrere at VALL-E kan generere vokale klangvariasjoner.

Kanskje på grunn av ALL-Es evne til å muligens legge til rette for svindel og bedrag, Microsoft har ikke gitt ALL-E-koden for andre å eksperimentere med, så vi vil ikke kunne teste dens evner. Forskere ser ut til å være klar over den potensielle sosiale skaden denne teknologien kan medføre. I avslutningen av artikkelen skriver de:

"Fordi VALL-E kan syntetisere tale som bevarer identiteten til høyttaleren, kan det medføre potensielle risikoer for modellmisbruk, som forfalskning av stemmeidentifikasjon eller å utgi seg for en spesifikk høyttaler. For å redusere slike risikoer, vil en gjenkjennelsesmodell bli bygget for å skille om et lydklipp ble syntetisert ved hjelp av VALL-E."

Du kan hjelpe Ukraina med å kjempe mot de russiske inntrengerne. Den beste måten å gjøre dette på er å donere midler til Ukrainas væpnede styrker gjennom Redd livet eller via den offisielle siden NBU.

Les også:

DzhereloArsTechnica

Melde deg på

0 Kommentar

Innebygde anmeldelser

Se alle kommentarer

Andre artikler

Ny AI Microsoft imiterer stemmen til enhver person fra et 3-sekunders lydeksempel

Nylige kommentarer