روز پنجشنبه محققان Microsoft مدل جدیدی از هوش مصنوعی (AI) به نام VALL-E را معرفی کرد که میتواند صدای انسان را با دقت سه ثانیه تقلید کند. زمانی که صدای خاصی را یاد گرفت، VALL-E میتواند صدای آن شخص را که هر چیزی را میگوید ترکیب کند و در عین حال لحن احساسی گوینده را حفظ کند.
نویسندگان آن پیشنهاد میکنند که VALL-E را میتوان برای تبدیل متن به گفتار با کیفیت بالا، ویرایش گفتار استفاده کرد، جایی که ضبط یک فرد را میتوان ویرایش کرد و از رونویسی متن تغییر داد (او را وادار به گفتن چیزهایی میکند که در ابتدا نگفتهاند). برای ایجاد محتوای صوتی همراه با سایر مدلهای هوش مصنوعی مانند GPT-3.
Microsoft VALL-E را "مدل زبان کدک عصبی" می نامد و بر اساس فناوری به نام EnCodec است که متا در اکتبر 2022 اعلام کرد. برخلاف سایر روش های تبدیل متن به گفتار که معمولاً گفتار را با دستکاری شکل موج ترکیب می کنند، VALL-E صدای گسسته تولید می کند. کدهای کدک از پیام های متنی و صوتی. اساساً صدای شخص را تجزیه و تحلیل میکند، آن اطلاعات را به اجزای مجزا (به نام «توکنها») به لطف EnCodec تجزیه میکند، و از دادههای آموزشی برای مطابقت با آنچه «میداند» در مورد اینکه آن صدا در صورتی که عبارات دیگری را در خارج به زبان میآورد، مطابقت دهد، استفاده میکند. از نمونه سه ثانیه ای
Microsoft قابلیت های سنتز گفتار VALL-E را بر روی یک کتابخانه صوتی که توسط متا به نام LibriLight گردآوری شده بود، آموزش داد. این شامل 60 ساعت پخش انگلیسی زبان از بیش از 7 گوینده است که عمدتاً از کتاب های صوتی LibriVox در دسترس عموم گرفته شده است.
VALL-E علاوه بر حفظ تایم صدا و لحن احساسی گوینده، می تواند "محیط صوتی" نمونه صوتی را نیز شبیه سازی کند. به عنوان مثال، اگر نمونه از یک مکالمه تلفنی به دست آمده باشد، خروجی صوتی سنتز شده، ویژگی های صوتی و فرکانس مکالمه تلفنی را شبیه سازی می کند. همچنین نمونه ها Microsoft نشان میدهد که VALL-E میتواند تغییرات صدا را ایجاد کند.
شاید به دلیل توانایی VALL-E در تسهیل بالقوه تقلب و فریب، Microsoft کد VALL-E را برای آزمایش دیگران ارائه نکرده است، بنابراین ما نمی توانیم قابلیت های آن را آزمایش کنیم. به نظر می رسد محققان از آسیب های اجتماعی بالقوه ای که این فناوری می تواند به همراه داشته باشد آگاه هستند. در پایان مقاله می نویسند:
از آنجایی که VALL-E می تواند گفتاری را ترکیب کند که هویت گوینده را حفظ کند، ممکن است خطرات بالقوه سوء استفاده از مدل، مانند جعل شناسایی صدا یا جعل هویت یک گوینده خاص را به همراه داشته باشد. برای کاهش چنین خطراتی، یک مدل تشخیص ساخته خواهد شد تا تشخیص دهد که آیا یک کلیپ صوتی با استفاده از VALL-E سنتز شده است یا خیر."
شما می توانید به اوکراین در مبارزه با مهاجمان روسی کمک کنید. بهترین راه برای انجام این کار، کمک مالی به نیروهای مسلح اوکراین است Savelife یا از طریق صفحه رسمی NBU.
همچنین بخوانید:
- کد نوشته شده توسط هوش مصنوعی می تواند خطرناک باشد
- کارشناسان هشدار می دهند: به زودی هوش مصنوعی هوش را خواهد دزدید