پنجشنبه 28 مارس 2024

دسکتاپ نسخه 4.2.1

Root NationНовиниاخبار فناوری اطلاعاتهوش مصنوعی جدید Microsoft صدای هر شخص را از یک نمونه صوتی 3 ثانیه تقلید می کند

هوش مصنوعی جدید Microsoft صدای هر شخص را از یک نمونه صوتی 3 ثانیه تقلید می کند

-

روز پنجشنبه محققان Microsoft مدل جدیدی از هوش مصنوعی (AI) به نام VALL-E را معرفی کرد که می‌تواند صدای انسان را با دقت سه ثانیه تقلید کند. زمانی که صدای خاصی را یاد گرفت، VALL-E می‌تواند صدای آن شخص را که هر چیزی را می‌گوید ترکیب کند و در عین حال لحن احساسی گوینده را حفظ کند.

نویسندگان آن پیشنهاد می‌کنند که VALL-E را می‌توان برای تبدیل متن به گفتار با کیفیت بالا، ویرایش گفتار استفاده کرد، جایی که ضبط یک فرد را می‌توان ویرایش کرد و از رونویسی متن تغییر داد (او را وادار به گفتن چیزهایی می‌کند که در ابتدا نگفته‌اند). برای ایجاد محتوای صوتی همراه با سایر مدل‌های هوش مصنوعی مانند GPT-3.

Microsoft AI VALL-E

Microsoft VALL-E را "مدل زبان کدک عصبی" می نامد و بر اساس فناوری به نام EnCodec است که متا در اکتبر 2022 اعلام کرد. برخلاف سایر روش های تبدیل متن به گفتار که معمولاً گفتار را با دستکاری شکل موج ترکیب می کنند، VALL-E صدای گسسته تولید می کند. کدهای کدک از پیام های متنی و صوتی. اساساً صدای شخص را تجزیه و تحلیل می‌کند، آن اطلاعات را به اجزای مجزا (به نام «توکن‌ها») به لطف EnCodec تجزیه می‌کند، و از داده‌های آموزشی برای مطابقت با آنچه «می‌داند» در مورد اینکه آن صدا در صورتی که عبارات دیگری را در خارج به زبان می‌آورد، مطابقت دهد، استفاده می‌کند. از نمونه سه ثانیه ای

Microsoft قابلیت های سنتز گفتار VALL-E را بر روی یک کتابخانه صوتی که توسط متا به نام LibriLight گردآوری شده بود، آموزش داد. این شامل 60 ساعت پخش انگلیسی زبان از بیش از 7 گوینده است که عمدتاً از کتاب های صوتی LibriVox در دسترس عموم گرفته شده است.

VALL-E علاوه بر حفظ تایم صدا و لحن احساسی گوینده، می تواند "محیط صوتی" نمونه صوتی را نیز شبیه سازی کند. به عنوان مثال، اگر نمونه از یک مکالمه تلفنی به دست آمده باشد، خروجی صوتی سنتز شده، ویژگی های صوتی و فرکانس مکالمه تلفنی را شبیه سازی می کند. همچنین نمونه ها Microsoft نشان می‌دهد که VALL-E می‌تواند تغییرات صدا را ایجاد کند.

Microsoft AI VALL-E

شاید به دلیل توانایی VALL-E در تسهیل بالقوه تقلب و فریب، Microsoft کد VALL-E را برای آزمایش دیگران ارائه نکرده است، بنابراین ما نمی توانیم قابلیت های آن را آزمایش کنیم. به نظر می رسد محققان از آسیب های اجتماعی بالقوه ای که این فناوری می تواند به همراه داشته باشد آگاه هستند. در پایان مقاله می نویسند:

از آنجایی که VALL-E می تواند گفتاری را ترکیب کند که هویت گوینده را حفظ کند، ممکن است خطرات بالقوه سوء استفاده از مدل، مانند جعل شناسایی صدا یا جعل هویت یک گوینده خاص را به همراه داشته باشد. برای کاهش چنین خطراتی، یک مدل تشخیص ساخته خواهد شد تا تشخیص دهد که آیا یک کلیپ صوتی با استفاده از VALL-E سنتز شده است یا خیر."

شما می توانید به اوکراین در مبارزه با مهاجمان روسی کمک کنید. بهترین راه برای انجام این کار، کمک مالی به نیروهای مسلح اوکراین است Savelife یا از طریق صفحه رسمی NBU.

همچنین بخوانید:

منبعarttechnica
ثبت نام
اطلاع رسانی در مورد
مهمان

0 نظرات
بررسی های جاسازی شده
مشاهده همه نظرات
مقالات دیگر
برای به روز رسانی مشترک شوید

نظرات اخیر

اکنون محبوب است
0
ما افکار شما را دوست داریم، لطفا نظر دهید.x