Root NationЖаңылыктарIT жаңылыктарыЖаңы AI Microsoft 3 секунддук аудио үлгүдөгү каалаган адамдын үнүн туурайт

Жаңы AI Microsoft 3 секунддук аудио үлгүдөгү каалаган адамдын үнүн туурайт

-

Бейшемби күнү, изилдөөчүлөр Microsoft VALL-E деп аталган жаңы жасалма интеллект (AI) моделин жарыялады, ал үч секунддук аудио үлгүсүн бергенде адамдын үнүн так туурай алат. Белгилүү бир үндү үйрөнгөндөн кийин, VALL-E спикердин эмоционалдык тонун сактап, ошол адамдын каалаган нерсесин айтып жаткан аудиону синтездей алат.

Анын авторлору VALL-Eди жогорку сапаттагы текстти сүйлөөгө, кепти түзөтүү үчүн колдонсо болорун, мында адамдын жазышын текст транскрипциясынан оңдоп, өзгөртсө болот (аларга башында айтпаган нерселерди айтууга мажбурлоо) жана сыяктуу башка генеративдик AI моделдери менен айкалышкан аудио мазмунду түзүү үчүн GPT-3.

Microsoft AI VALL-E

Microsoft VALL-Eди "Нейрондук кодек тилинин модели" деп атайт жана ал Meta 2022-жылдын октябрында жарыялаган EnCodec деп аталган технологияга негизделген. Демейде толкун формаларын манипуляциялоо аркылуу кепти синтездеген башка тексттен сөзгө методдордон айырмаланып, VALL-E дискреттик аудиону жаратат. тексттик жана акустикалык чакырыктардан кодек коддору. Ал, негизинен, адам кандай угулаарын талдайт, EnCodecтин аркасында ал маалыматты дискреттик компоненттерге ("токендер" деп аталат) бөлүп берет жана эгер ал сыртта башка фразаларды айтса, ал үн кандай угулат экени жөнүндө "билгендерине" дал келүү үчүн машыгуу маалыматтарын колдонот. үч секунддук үлгүдөгү.

Microsoft LibriLight деп аталган Meta тарабынан түзүлгөн аудио китепканада VALL-Eнин кеп синтездөө мүмкүнчүлүктөрүн үйрөттү. Анда 60ден ашык дикторлордун англис тилиндеги 7 XNUMX сааттык берүүлөрү камтылган, алардын көбү жалпыга жеткиликтүү LibriVox аудиокитептеринен алынган.

Диктордун үн тембринин жана эмоционалдык тонунун сакталышынан тышкары, VALL-E аудио үлгүсүнүн "акустикалык чөйрөсүн" окшоштура алат. Мисалы, үлгү телефон сүйлөшүүсүнөн алынган болсо, синтезделген аудио чыгаруу телефон сүйлөшүүсүнүн акустикалык жана жыштык касиеттерин окшоштурат. Ошондой эле үлгүлөрү Microsoft VALL-E вокалдык тембрдик вариацияларды жарата аларын көрсөтөт.

Microsoft AI VALL-E

Балким, VALL-E алдамчылыкка жана алдамчылыкка көмөктөшүүчү жөндөмүнөн улам, Microsoft башкаларга эксперимент жүргүзүү үчүн VALL-E кодун берген эмес, ошондуктан биз анын мүмкүнчүлүктөрүн сынай албайбыз. Изилдөөчүлөр бул технология алып келиши мүмкүн болгон социалдык зыянды билишет окшойт. Макаланын корутундусунда алар мындай деп жазышат:

«VALL-E баяндамачынын инсандыгын сактаган кепти синтездей алгандыктан, ал үндү идентификациялоо же белгилүү бир динамикти имитациялоо сыяктуу моделди кыянаттык менен пайдалануу коркунучун алып келиши мүмкүн. Мындай тобокелдиктерди азайтуу үчүн, VALL-E аркылуу аудиоклип синтезделгендигин айырмалоо үчүн таануу модели түзүлөт.

Сиз Украинага орус баскынчыларына каршы күрөшүүгө жардам бере аласыз. Мунун эң жакшы жолу - Украинанын Куралдуу күчтөрүнө каражат берүү Savelife же расмий баракчасы аркылуу NBU.

Ошондой эле окуңуз:

Кирүү
жөнүндө кабарлоо
конок

0 Comments
Камтылган сын-пикирлер
Бардык комментарийлерди көрүү
Башка макалалар
Жаңыртууларга жазылыңыз
Азыр популярдуу