هوش مصنوعی گفتاری متا بیش از 4 زبان گفتاری را تشخیص می دهد

متا یک مدل زبان AI ایجاد کرد که یک کلون ChatGPT نیست. پروژه Massively Multilingual Speech (MMS) این شرکت می تواند بیش از 4 زبان گفتاری را تشخیص دهد و گفتار (متن به گفتار) را به بیش از 000 زبان بازتولید کند. مانند بسیاری از پروژه‌های هوش مصنوعی که به صورت عمومی اعلام شده است، متا امروز برای کمک به حفظ تنوع زبانی و تشویق محققان به توسعه آن، دسترسی MMS را باز می‌کند. این شرکت نوشت: «امروز ما مدل‌ها و کدهای خود را به صورت عمومی به اشتراک می‌گذاریم تا سایر اعضای جامعه تحقیقاتی بتوانند بر اساس کار ما کار کنند. به لطف این کار، امیدواریم بتوانیم سهم کوچکی در حفظ تنوع زبانی باورنکردنی جهان داشته باشیم.»

تشخیص گفتار و مدل‌های تبدیل متن به گفتار معمولاً به آموزش هزاران ساعت ضبط صوتی با برچسب‌های رونویسی همراه نیاز دارند. اما برای زبان‌هایی که به طور گسترده در کشورهای صنعتی صحبت نمی‌شود - که بسیاری از آنها در دهه‌های آینده در معرض خطر انقراض قرار دارند - "این داده‌ها به سادگی وجود ندارند."

متا رویکردی غیرمتعارف برای جمع آوری داده های صوتی در پیش گرفت: گوش دادن به ضبط های صوتی متون مذهبی ترجمه شده. این شرکت گفت: «ما به متون مذهبی مانند کتاب مقدس، که به بسیاری از زبان‌های مختلف ترجمه شده‌اند و ترجمه‌های آن‌ها به‌طور گسترده‌ای برای تحقیقات ترجمه مبتنی بر متن مورد مطالعه قرار گرفته‌اند، روی آوردیم. این ترجمه‌ها دارای ضبط‌های صوتی از افرادی هستند که این متون را به زبان‌های مختلف می‌خوانند.» محققان متا با گنجاندن مدخل های بدون علامت از کتاب مقدس و متون مشابه، تعداد زبان های موجود برای مدل را به بیش از 4 افزایش دادند.

متا می‌نویسد: «اگرچه محتوای ضبط‌های صوتی مذهبی است، اما تحلیل ما نشان می‌دهد که این موضوع بر تولید زبان مذهبی‌تر مدل تأثیری نمی‌گذارد». ما معتقدیم این به این دلیل است که از رویکرد طبقه‌بندی زمانی پیوندگرا (CTC) استفاده می‌کنیم که در مقایسه با مدل‌های زبان بزرگ (LLM) یا مدل‌های توالی برای تشخیص گفتار بسیار محدودتر است. همچنین، علی‌رغم این واقعیت که اکثر متون مذهبی توسط مردان خوانده می‌شد، این امر منجر به سوگیری مردانه نشد - سیستم صدای زنان و مردان را به یک اندازه به خوبی تشخیص داد.

پس از آموزش یک مدل تراز برای استفاده بیشتر از داده ها، متا از wav2vec 2.0 استفاده کرد، مدل "یادگیری بازنمایی زبان خود نظارتی" شرکت که می تواند بر روی داده های بدون برچسب یاد بگیرد. ترکیبی از منابع داده غیرسنتی و یک مدل گفتاری خودراهبر منجر به نتایج چشمگیری شد. "نتایج ما نشان می دهد که مدل های پخش چندزبانه انبوه در مقایسه با مدل های موجود عملکرد خوبی دارند و 10 برابر زبان های بیشتری را پوشش می دهند." به طور خاص، متا MMS را با Whisper OpenAI مقایسه کرد و نتایج فراتر از انتظارات بود. ما متوجه شدیم که مدل‌هایی که روی داده‌های Massively Multilingual Speech آموزش داده شده‌اند، نیم درصد خطاهای کلمات را دارند، اما Massively Multilingual Speech 11 برابر بیشتر زبان‌ها را پوشش می‌دهد.

متا هشدار می دهد که مدل های جدید آن بی نقص نیستند. این شرکت می نویسد: «برای مثال، خطری وجود دارد که مدل گفتار به متن ممکن است کلمات یا عبارات فردی را به اشتباه ترجمه کند. بسته به نتیجه، این ممکن است به زبان توهین آمیز و/یا نادرست منجر شود. ما همچنان معتقدیم که همکاری در جامعه هوش مصنوعی برای توسعه مسئولانه فناوری‌های هوش مصنوعی حیاتی است.»

اکنون که متا MMS را برای تحقیقات منبع باز منتشر کرده است، امیدوار است روند کاهش تعداد زبان ها در جهان به 100 زبان یا کمتر را معکوس کند که بیشتر آنها توسط فناوری های اصلی پشتیبانی می شوند. او دنیایی را می بیند که در آن فناوری های کمکی، TTS و حتی فناوری های VR / AR به همه اجازه می دهند به زبان مادری خود صحبت کنند و یاد بگیرند. در این بیانیه آمده است: «ما دنیایی را متصور هستیم که در آن فناوری تأثیر معکوس دارد و مردم را تشویق می‌کند تا زبان خود را زنده نگه دارند زیرا می‌توانند به اطلاعات دسترسی داشته باشند و از فناوری استفاده کنند در حالی که به زبان مادری خود صحبت می‌کنند.»

همچنین بخوانید:

منبعEngadget

ثبت نام

0 نظرات

بررسی های جاسازی شده

مشاهده همه نظرات

مقالات دیگر

هوش مصنوعی گفتاری متا بیش از 4 زبان گفتاری را تشخیص می دهد

نظرات اخیر