Bagong AI Microsoft maaaring gayahin ang boses ng sinumang tao

Noong Huwebes, ang mga mananaliksik Microsoft nag-anunsyo ng bagong modelo ng artificial intelligence (AI) na tinatawag na VALL-E na tumpak na maaaring gayahin ang boses ng tao kapag binigyan ng tatlong segundong audio sample. Kapag natutunan na nito ang isang partikular na boses, maaaring i-synthesize ng VALL-E ang audio ng taong iyon na nagsasabi ng kahit ano, habang pinapanatili ang emosyonal na tono ng nagsasalita.

Iminumungkahi ng mga may-akda nito na ang VALL-E ay maaaring gamitin para sa mataas na kalidad na text-to-speech, pag-edit ng pagsasalita, kung saan ang pag-record ng isang tao ay maaaring i-edit at baguhin mula sa isang transkripsyon ng teksto (na nagpapasabi sa kanila ng mga bagay na hindi nila orihinal na sinasabi), at para sa paglikha ng nilalamang audio na pinagsama sa iba pang mga generative na modelo ng AI tulad ng GPT-3.

Microsoft tinatawag ang VALL-E na isang "Modelo ng Wika ng Neural Codec," at ito ay batay sa isang teknolohiyang tinatawag na EnCodec na inanunsyo ng Meta noong Oktubre 2022. Hindi tulad ng iba pang paraan ng text-to-speech, na karaniwang nag-synthesize ng pagsasalita sa pamamagitan ng pagmamanipula ng mga waveform, ang VALL- E ay bumubuo ng discrete audio codec code mula sa text at acoustic prompt. Karaniwang sinusuri nito kung ano ang tunog ng isang tao, hinahati-hati ang impormasyong iyon sa mga discrete na bahagi (tinatawag na "mga token") salamat sa EnCodec, at gumagamit ng data ng pagsasanay upang tumugma sa kung ano ang "alam" nito tungkol sa kung ano ang magiging tunog ng boses na iyon kung magsalita ito ng iba pang mga parirala sa labas ng tatlong segundong sample.

Microsoft sinanay ang mga kakayahan ng speech synthesis ng VALL-E sa isang audio library na pinagsama ng Meta na tinatawag na LibriLight. Naglalaman ito ng 60 oras ng mga broadcast sa wikang Ingles mula sa higit sa 7 announcer, karamihan ay kinuha mula sa pampublikong available na LibriVox audiobooks.

Bilang karagdagan sa pagpapanatili ng voice timbre at emosyonal na tono ng announcer, maaari ding gayahin ng VALL-E ang "acoustic environment" ng audio sample. Halimbawa, kung ang sample ay nakuha mula sa isang pag-uusap sa telepono, ang synthesized na audio output ay gayahin ang acoustic at frequency properties ng pag-uusap sa telepono. Pati mga sample Microsoft ipakita na ang VALL-E ay makakabuo ng mga variation ng vocal timbre.

Marahil dahil sa kakayahan ng VALL-E na potensyal na mapadali ang pandaraya at panlilinlang, Microsoft ay hindi nagbigay ng VALL-E code para mag-eksperimento ang iba, kaya hindi namin masusubok ang mga kakayahan nito. Mukhang alam ng mga mananaliksik ang potensyal na pinsala sa lipunan na maaaring idulot ng teknolohiyang ito. Sa pagtatapos ng artikulo, isinulat nila:

"Dahil ang VALL-E ay maaaring mag-synthesize ng pagsasalita na nagpapanatili sa pagkakakilanlan ng nagsasalita, maaari itong magdala ng mga potensyal na panganib ng pang-aabuso sa modelo, tulad ng panggagaya ng pagkakakilanlan ng boses o pagpapanggap bilang isang partikular na tagapagsalita. Upang mabawasan ang mga ganitong panganib, bubuo ang isang modelo ng pagkilala upang makilala kung ang isang audio clip ay na-synthesize gamit ang VALL-E."

Matutulungan mo ang Ukraine na labanan ang mga mananakop na Ruso. Ang pinakamahusay na paraan upang gawin ito ay ang mag-abuloy ng mga pondo sa Armed Forces of Ukraine sa pamamagitan ng Savelife o sa pamamagitan ng opisyal na pahina NBU.

Basahin din:

Jereloarttechnica

Mag-sign up

0 Comments

Naka-embed na Mga Review

Tingnan ang lahat ng komento

Iba pang mga artikulo

Bagong AI Microsoft ginagaya ang boses ng sinumang tao mula sa 3 segundong audio sample

Mga kamakailang komento