29. március 2024., péntek

asztali v4.2.1

Root NationНовиниinformatikai újságÚj AI Microsoft bármely személy hangját utánozza egy 3 másodperces hangmintából

Új AI Microsoft bármely személy hangját utánozza egy 3 másodperces hangmintából

-

Csütörtökön a kutatók Microsoft bejelentette a mesterséges intelligencia (AI) új modelljét, a VALL-E-t, amely három másodperces hangmintával pontosan képes utánozni az emberi hangot. Miután megtanult egy adott hangot, a VALL-E szintetizálni tudja az adott személy hangját, miközben bármit mond, miközben megőrzi a beszélő érzelmi tónusát.

A szerzők azt javasolják, hogy a VALL-E kiváló minőségű szövegfelolvasó, beszédszerkesztésre használható, ahol egy személy felvétele szerkeszthető és szöveges átírásból megváltoztatható (olyan dolgokat is kimondva, amit eredetileg nem mondott), ill. hangtartalom létrehozásához más generatív AI modellekkel kombinálva, mint pl GPT-3.

Microsoft AI VALL-E

Microsoft a VALL-E-t "neurális kodek nyelvi modellnek" nevezi, és az EnCodec nevű technológián alapul, amelyet a Meta 2022 októberében jelentett be. Más szövegfelolvasó módszerekkel ellentétben, amelyek jellemzően hullámformák manipulálásával szintetizálják a beszédet, a VALL-E diszkrét hangot állít elő. kodek kódok szöveges és akusztikus promptokból. Alapvetően azt elemzi, hogy egy személy hogyan hangzik, az információkat különálló komponensekre bontja (az EnCodec-nek köszönhetően "tokennek" nevezik), és a képzési adatok segítségével egyezteti azzal, amit "tud" arról, hogyan hangozna az adott hang, ha más kifejezéseket mondana kívülről. a három másodperces mintából.

Microsoft betanította a VALL-E beszédszintézis képességeit a Meta által összeállított LibriLight hangkönyvtáron. 60 7 órányi angol nyelvű adást tartalmaz több mint XNUMX XNUMX bemondótól, többnyire nyilvánosan elérhető LibriVox hangoskönyvekből.

Amellett, hogy megőrzi a bemondó hangszínét és érzelmi tónusát, a VALL-E képes szimulálni a hangminta "akusztikus környezetét". Például, ha a mintát egy telefonbeszélgetésből kaptuk, a szintetizált hangkimenet szimulálja a telefonbeszélgetés akusztikus és frekvenciatulajdonságait. Szintén mintákat Microsoft bizonyítja, hogy a VALL-E hangszínvariációkat generálhat.

Microsoft AI VALL-E

Talán annak köszönhető, hogy a VALL-E potenciálisan elősegíti a csalást és a megtévesztést, Microsoft nem biztosította a VALL-E kódot mások számára, hogy kísérletezzenek vele, így nem tudjuk tesztelni a képességeit. Úgy tűnik, hogy a kutatók tisztában vannak azzal, hogy ez a technológia milyen társadalmi károkat okozhat. A cikk végén azt írják:

„Mivel a VALL-E olyan beszédet tud szintetizálni, amely megőrzi a beszélő személyazonosságát, potenciálisan a modellel való visszaélés kockázatát hordozhatja magában, például hamisíthatja a hangazonosítót vagy kiadhatja magát egy bizonyos beszélőnek. Az ilyen kockázatok csökkentése érdekében egy felismerési modellt építenek, amely megkülönbözteti, hogy egy hangfelvételt a VALL-E segítségével szintetizáltak-e."

Segíthet Ukrajnának az orosz megszállók elleni küzdelemben. Ennek legjobb módja, ha adományokat adományoz az ukrán fegyveres erőknek ezen keresztül Savelife vagy a hivatalos oldalon keresztül NBU.

Olvassa el még:

Regisztrálj
Értesítés arról
vendég

0 Hozzászólások
Beágyazott vélemények
Az összes megjegyzés megtekintése
Egyéb cikkek
Iratkozz fel a frissítésekre

Legutóbbi hozzászólások

Most népszerű
0
Imádjuk a gondolataidat, kérlek kommenteld.x