Nuova intelligenza artificiale Microsoft imita la voce di qualsiasi persona da un campione audio di 3 secondi

Giovedì i ricercatori Microsoft ha annunciato un nuovo modello di intelligenza artificiale (AI) chiamato VALL-E in grado di imitare accuratamente una voce umana quando viene fornito un campione audio di tre secondi. Una volta appresa una voce particolare, VALL-E può sintetizzare l'audio di quella persona che dice qualsiasi cosa preservando il tono emotivo di chi parla.

I suoi autori suggeriscono che VALL-E può essere utilizzato per la sintesi vocale di alta qualità, l'editing vocale, in cui la registrazione di una persona può essere modificata e modificata da una trascrizione di testo (facendogli dire cose che non hanno detto originariamente) e per la creazione di contenuti audio combinati con altri modelli di intelligenza artificiale generativa come GPT-3.

Microsoft chiama VALL-E un "modello linguistico codec neurale" e si basa su una tecnologia chiamata EnCodec annunciata da Meta nell'ottobre 2022. A differenza di altri metodi di sintesi vocale, che in genere sintetizzano il parlato manipolando le forme d'onda, VALL-E genera audio discreto codici codec da messaggi di testo e acustici. Fondamentalmente analizza il suono di una persona, scompone le informazioni in componenti discreti (chiamati "token") grazie a EnCodec e utilizza i dati di addestramento per abbinare ciò che "sa" su come suonerebbe quella voce se pronunciasse altre frasi all'esterno. del campione di tre secondi.

Microsoft ha addestrato le capacità di sintesi vocale di VALL-E su una libreria audio compilata da Meta chiamata LibriLight. Contiene 60 ore di trasmissioni in lingua inglese da più di 7 annunciatori, per lo più tratte da audiolibri LibriVox disponibili al pubblico.

Oltre a preservare il timbro della voce e il tono emotivo dell'annunciatore, VALL-E può anche simulare l'"ambiente acustico" del campione audio. Ad esempio, se il campione è stato ottenuto da una conversazione telefonica, l'uscita audio sintetizzata simulerà le proprietà acustiche e di frequenza della conversazione telefonica. Anche campioni Microsoft dimostrare che VALL-E può generare variazioni del timbro vocale.

Forse a causa della capacità di VALL-E di facilitare potenzialmente frodi e inganni, Microsoft non ha fornito il codice VALL-E affinché altri possano sperimentarlo, quindi non saremo in grado di testarne le capacità. I ricercatori sembrano essere consapevoli del potenziale danno sociale che questa tecnologia potrebbe comportare. Nella conclusione dell'articolo scrivono:

“Poiché VALL-E può sintetizzare un discorso che preserva l'identità di chi parla, può comportare potenziali rischi di abuso del modello, come lo spoofing dell'identificazione vocale o l'impersonificazione di un oratore specifico. Per ridurre tali rischi, verrà creato un modello di riconoscimento per distinguere se una clip audio è stata sintetizzata utilizzando VALL-E".

Puoi aiutare l'Ucraina a combattere contro gli invasori russi. Il modo migliore per farlo è donare fondi alle forze armate ucraine attraverso Salva Vita o tramite la pagina ufficiale NBU.

Leggi anche:

Condividi
Julia Alexandrova

Caffè. Fotografo. Scrivo di scienza e spazio. Penso che sia troppo presto per incontrare gli alieni. Seguo lo sviluppo della robotica, per ogni evenienza...

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con*