Naujas AI Microsoft gali imituoti bet kurio žmogaus balsą

Ketvirtadienį tyrėjai Microsoft paskelbė apie naują dirbtinio intelekto (AI) modelį, pavadintą VALL-E, kuris gali tiksliai imituoti žmogaus balsą, kai pateikiamas trijų sekundžių garso pavyzdys. Išmokęs tam tikrą balsą, VALL-E gali susintetinti to asmens garsą, kuris sako bet ką, išlaikydamas emocinį garsiakalbio toną.

Jo autoriai teigia, kad VALL-E gali būti naudojamas aukštos kokybės teksto pakeitimui į kalbą, kalbos redagavimui, kai asmens įrašas gali būti redaguojamas ir pakeistas iš teksto transkripcijos (priverčiant jį pasakyti tai, ko iš pradžių nesakė), ir garso turiniui kurti kartu su kitais generaciniais AI modeliais, pvz., GPT-3.

Microsoft VALL-E vadina „neuroninio kodeko kalbos modeliu“ ir jis pagrįstas technologija, vadinama EnCodec, kurią „Meta“ paskelbė 2022 m. spalį. Skirtingai nuo kitų teksto į kalbą metodų, kurie paprastai sintezuoja kalbą manipuliuodami bangų formomis, VALL-E generuoja atskirą garsą. kodekų kodai iš tekstinių ir akustinių raginimų. Jis iš esmės analizuoja, kaip žmogus skamba, suskaido tą informaciją į atskirus komponentus (vadinamus „žetonais“) dėl EnCodec ir naudoja mokymo duomenis, kad atitiktų tai, ką jis „žino“ apie tai, kaip tas balsas skambėtų, jei jis ištartų kitas frazes. trijų sekundžių mėginio.

Microsoft apmokė VALL-E kalbos sintezės galimybes Meta sudarytoje garso bibliotekoje LibriLight. Jame yra 60 7 valandų transliacijų anglų kalba iš daugiau nei XNUMX XNUMX diktorių, daugiausia paimtų iš viešai prieinamų LibriVox audio knygų.

Be to, kad išsaugomas diktoriaus balso tembras ir emocinis tonas, VALL-E taip pat gali imituoti garso pavyzdžio „akustinę aplinką“. Pavyzdžiui, jei pavyzdys buvo gautas iš pokalbio telefonu, susintetintas garso išvestis imituos telefono pokalbio akustines ir dažnines savybes. Taip pat pavyzdžiai Microsoft parodyti, kad VALL-E gali generuoti balso tembro variacijas.

Galbūt dėl VALL-E gebėjimo palengvinti sukčiavimą ir apgaulę, Microsoft nepateikė VALL-E kodo, kad kiti galėtų eksperimentuoti, todėl negalėsime išbandyti jo galimybių. Atrodo, kad mokslininkai žino apie galimą socialinę žalą, kurią ši technologija gali padaryti. Straipsnio pabaigoje jie rašo:

„Kadangi VALL-E gali sintetinti kalbą, kuri išsaugo kalbėtojo tapatybę, gali kilti potenciali piktnaudžiavimo modeliu rizika, pvz., balso atpažinimo klaidinimas arba apsimetimas konkrečiu kalbėtoju. Siekiant sumažinti tokią riziką, bus sukurtas atpažinimo modelis, leidžiantis atskirti, ar garso klipas buvo susintetintas naudojant VALL-E.

Jūs galite padėti Ukrainai kovoti su Rusijos įsibrovėliais. Geriausias būdas tai padaryti – aukoti lėšas Ukrainos ginkluotosioms pajėgoms per Išgelbėk gyvybę arba per oficialų puslapį NBU.

Taip pat skaitykite:

Jerelasarttechnica

Registruotis

0 komentarai

Įterptieji atsiliepimai

Žiūrėti visus komentarus

Kiti straipsniai

Naujas AI Microsoft imituoja bet kurio asmens balsą iš 3 sekundžių garso pavyzdžio

Naujausi Komentarai