Root NationNieuwsIT-nieuwsNieuwe AI Microsoft imiteert de stem van een persoon uit een audiofragment van 3 seconden

Nieuwe AI Microsoft imiteert de stem van een persoon uit een audiofragment van 3 seconden

-

Donderdag onderzoekers Microsoft heeft een nieuw model voor kunstmatige intelligentie (AI) aangekondigd, VALL-E genaamd, dat een menselijke stem nauwkeurig kan nabootsen wanneer er een audiofragment van drie seconden wordt gegeven. Zodra het een bepaalde stem leert, kan VALL-E audio synthetiseren van die persoon die iets zegt, terwijl de emotionele toon van de spreker behouden blijft.

De auteurs suggereren dat VALL-E kan worden gebruikt voor hoogwaardige tekst-naar-spraak, spraakbewerking, waarbij de opname van een persoon kan worden bewerkt en gewijzigd van een teksttranscriptie (waardoor ze dingen zeggen die ze oorspronkelijk niet zeiden), en voor het maken van audiocontent in combinatie met andere generatieve AI-modellen zoals GPT-3.

Microsoft AI VAL-E

Microsoft noemt VALL-E een ‘Neural Codec Language Model’, en het is gebaseerd op een technologie genaamd EnCodec die Meta in oktober 2022 aankondigde. In tegenstelling tot andere tekst-naar-spraak-methoden, die doorgaans spraak synthetiseren door golfvormen te manipuleren, genereert VALL-E discrete audio codeccodes uit tekst en akoestische aanwijzingen. Het analyseert feitelijk hoe een persoon klinkt, verdeelt die informatie dankzij EnCodec in afzonderlijke componenten ("tokens" genoemd) en gebruikt trainingsgegevens om te matchen met wat hij "weet" over hoe die stem zou klinken als hij andere zinnen buiten de deur zou uitspreken. van het drie seconden durende monster.

Microsoft trainde de spraaksynthesemogelijkheden van VALL-E op een audiobibliotheek samengesteld door Meta genaamd LibriLight. Het bevat 60 uur aan Engelstalige uitzendingen van meer dan 7 omroepers, grotendeels afkomstig uit openbaar beschikbare LibriVox-audioboeken.

Naast het behoud van het stemtimbre en de emotionele toon van de omroeper, kan VALL-E ook de "akoestische omgeving" van het audiofragment simuleren. Als het monster bijvoorbeeld uit een telefoongesprek is verkregen, zal de gesynthetiseerde audio-uitvoer de akoestische en frequentie-eigenschappen van het telefoongesprek simuleren. Ook monsters Microsoft laten zien dat VAL-E vocale timbrevariaties kan genereren.

Microsoft AI VAL-E

Misschien vanwege het vermogen van VALL-E om fraude en bedrog mogelijk te maken, Microsoft heeft de VALL-E-code niet ter beschikking gesteld aan anderen om mee te experimenteren, dus we zullen de mogelijkheden ervan niet kunnen testen. Onderzoekers lijken zich bewust te zijn van de potentiële sociale schade die deze technologie kan veroorzaken. In de conclusie van het artikel schrijven ze:

“Omdat VALL-E spraak kan synthetiseren die de identiteit van de spreker behoudt, kan het potentiële risico's van modelmisbruik met zich meebrengen, zoals spoofing van stemidentificatie of het nabootsen van een specifieke spreker. Om dergelijke risico's te verminderen, zal een herkenningsmodel worden gebouwd om te onderscheiden of een audioclip is gesynthetiseerd met behulp van VALL-E."

U kunt Oekraïne helpen vechten tegen de Russische indringers. De beste manier om dit te doen is door geld te doneren aan de strijdkrachten van Oekraïne via Red het leven of via de officiële pagina NBU.

Lees ook:

Aanmelden
Informeer over
gast

0 Heb je vragen? Stel ze hier.
Ingesloten beoordelingen
Bekijk alle reacties
Andere artikelen
Schrijf je in voor updates
Nu populair