Root NationYangiliklarIT yangiliklariYangi AI Microsoft 3 soniyalik audio namunadagi har qanday odamning ovoziga taqlid qiladi

Yangi AI Microsoft 3 soniyalik audio namunadagi har qanday odamning ovoziga taqlid qiladi

-

Payshanba kuni tadqiqotchilar Microsoft VALL-E nomli yangi sun'iy intellekt (AI) modelini e'lon qildi, u uch soniyali audio namunasi berilganda inson ovozini aniq taqlid qila oladi. Muayyan ovozni o'rgangandan so'ng, VALL-E ma'ruzachining hissiy ohangini saqlab qolgan holda, u odamning har qanday gapining ovozini sintez qila oladi.

Uning mualliflari VALL-E-dan yuqori sifatli matndan nutqqa, nutqni tahrirlashda foydalanish mumkinligini taklif qiladi, bunda odamning yozuvini tahrirlash va matn transkripsiyasidan o'zgartirish mumkin (ularni dastlab aytmagan narsalarni aytishga majbur qilish) va kabi boshqa generativ AI modellari bilan birgalikda audio kontent yaratish uchun Xetafe-3.

Microsoft AI VALL-E

Microsoft VALL-E-ni “Neyron kodek tili modeli” deb ataydi va u Meta 2022-yil oktabr oyida e’lon qilgan EnCodec nomli texnologiyaga asoslangan. Odatda to‘lqin shakllarini manipulyatsiya qilish orqali nutqni sintez qiladigan boshqa matndan-nutqqa usullardan farqli o‘laroq, VALL-E diskret audio ishlab chiqaradi. matn va akustik so'rovlardan kodek kodlari. U asosan odam qanday ovoz berishini tahlil qiladi, EnCodec tufayli ushbu ma'lumotni diskret komponentlarga ("tokenlar" deb ataladi) ajratadi va agar u tashqarida boshqa iboralarni gapirsa, bu ovoz qanday eshitilishini "bilgan" narsaga moslashtirish uchun o'quv ma'lumotlaridan foydalanadi. uch soniyali namunadan.

Microsoft LibriLight deb nomlangan Meta tomonidan tuzilgan audio kutubxonasida VALL-E nutq sintezi imkoniyatlarini o'rgatdi. Unda 60 dan ortiq diktorlarning ingliz tilidagi 7 XNUMX soatlik eshittirishlari mavjud bo'lib, asosan LibriVox audiokitoblaridan olingan.

Diktorning ovoz tembri va hissiy ohangini saqlab qolishdan tashqari, VALL-E audio namunadagi “akustik muhit”ni ham simulyatsiya qilishi mumkin. Misol uchun, agar namuna telefon suhbatidan olingan bo'lsa, sintez qilingan audio chiqishi telefon suhbatining akustik va chastota xususiyatlarini simulyatsiya qiladi. Shuningdek, namunalar Microsoft VALL-E vokal tembrini o'zgartirishi mumkinligini ko'rsating.

Microsoft AI VALL-E

Ehtimol, VALL-E firibgarlik va aldashni osonlashtirish qobiliyati tufayli, Microsoft boshqalarga tajriba o'tkazish uchun VALL-E kodini taqdim etmagan, shuning uchun biz uning imkoniyatlarini sinab ko'ra olmaymiz. Tadqiqotchilar ushbu texnologiya olib kelishi mumkin bo'lgan ijtimoiy zararni bilishadi. Maqolaning oxirida ular shunday yozadilar:

“VALL-E ma'ruzachining shaxsini saqlaydigan nutqni sintez qila olganligi sababli, u ovozni identifikatsiyalash yoki ma'lum bir karnayni taqlid qilish kabi modelni suiiste'mol qilish xavfini o'z zimmasiga olishi mumkin. Bunday xavflarni kamaytirish uchun VALL-E yordamida audioklip sintez qilinganligini aniqlash uchun tanib olish modeli quriladi.

Siz Ukrainaga rus bosqinchilariga qarshi kurashda yordam bera olasiz. Buning eng yaxshi yo'li - Ukraina Qurolli Kuchlariga pul mablag'larini berishdir Savelife yoki rasmiy sahifa orqali NBU.

Shuningdek o'qing:

Ro'yxatdan o'tish
Xabar berish
mehmon

0 Izoh
O'rnatilgan sharhlar
Barcha sharhlarni ko'ring