متا یک مدل زبان AI ایجاد کرد که یک کلون ChatGPT نیست. پروژه Massively Multilingual Speech (MMS) این شرکت می تواند بیش از 4 زبان گفتاری را تشخیص دهد و گفتار (متن به گفتار) را به بیش از 000 زبان بازتولید کند. مانند بسیاری از پروژههای هوش مصنوعی که به صورت عمومی اعلام شده است، متا امروز برای کمک به حفظ تنوع زبانی و تشویق محققان به توسعه آن، دسترسی MMS را باز میکند. این شرکت نوشت: «امروز ما مدلها و کدهای خود را به صورت عمومی به اشتراک میگذاریم تا سایر اعضای جامعه تحقیقاتی بتوانند بر اساس کار ما کار کنند. به لطف این کار، امیدواریم بتوانیم سهم کوچکی در حفظ تنوع زبانی باورنکردنی جهان داشته باشیم.»
تشخیص گفتار و مدلهای تبدیل متن به گفتار معمولاً به آموزش هزاران ساعت ضبط صوتی با برچسبهای رونویسی همراه نیاز دارند. اما برای زبانهایی که به طور گسترده در کشورهای صنعتی صحبت نمیشود - که بسیاری از آنها در دهههای آینده در معرض خطر انقراض قرار دارند - "این دادهها به سادگی وجود ندارند."
متا رویکردی غیرمتعارف برای جمع آوری داده های صوتی در پیش گرفت: گوش دادن به ضبط های صوتی متون مذهبی ترجمه شده. این شرکت گفت: «ما به متون مذهبی مانند کتاب مقدس، که به بسیاری از زبانهای مختلف ترجمه شدهاند و ترجمههای آنها بهطور گستردهای برای تحقیقات ترجمه مبتنی بر متن مورد مطالعه قرار گرفتهاند، روی آوردیم. این ترجمهها دارای ضبطهای صوتی از افرادی هستند که این متون را به زبانهای مختلف میخوانند.» محققان متا با گنجاندن مدخل های بدون علامت از کتاب مقدس و متون مشابه، تعداد زبان های موجود برای مدل را به بیش از 4 افزایش دادند.
متا مینویسد: «اگرچه محتوای ضبطهای صوتی مذهبی است، اما تحلیل ما نشان میدهد که این موضوع بر تولید زبان مذهبیتر مدل تأثیری نمیگذارد». ما معتقدیم این به این دلیل است که از رویکرد طبقهبندی زمانی پیوندگرا (CTC) استفاده میکنیم که در مقایسه با مدلهای زبان بزرگ (LLM) یا مدلهای توالی برای تشخیص گفتار بسیار محدودتر است. همچنین، علیرغم این واقعیت که اکثر متون مذهبی توسط مردان خوانده میشد، این امر منجر به سوگیری مردانه نشد - سیستم صدای زنان و مردان را به یک اندازه به خوبی تشخیص داد.
پس از آموزش یک مدل تراز برای استفاده بیشتر از داده ها، متا از wav2vec 2.0 استفاده کرد، مدل "یادگیری بازنمایی زبان خود نظارتی" شرکت که می تواند بر روی داده های بدون برچسب یاد بگیرد. ترکیبی از منابع داده غیرسنتی و یک مدل گفتاری خودراهبر منجر به نتایج چشمگیری شد. "نتایج ما نشان می دهد که مدل های پخش چندزبانه انبوه در مقایسه با مدل های موجود عملکرد خوبی دارند و 10 برابر زبان های بیشتری را پوشش می دهند." به طور خاص، متا MMS را با Whisper OpenAI مقایسه کرد و نتایج فراتر از انتظارات بود. ما متوجه شدیم که مدلهایی که روی دادههای Massively Multilingual Speech آموزش داده شدهاند، نیم درصد خطاهای کلمات را دارند، اما Massively Multilingual Speech 11 برابر بیشتر زبانها را پوشش میدهد.
متا هشدار می دهد که مدل های جدید آن بی نقص نیستند. این شرکت می نویسد: «برای مثال، خطری وجود دارد که مدل گفتار به متن ممکن است کلمات یا عبارات فردی را به اشتباه ترجمه کند. بسته به نتیجه، این ممکن است به زبان توهین آمیز و/یا نادرست منجر شود. ما همچنان معتقدیم که همکاری در جامعه هوش مصنوعی برای توسعه مسئولانه فناوریهای هوش مصنوعی حیاتی است.»
اکنون که متا MMS را برای تحقیقات منبع باز منتشر کرده است، امیدوار است روند کاهش تعداد زبان ها در جهان به 100 زبان یا کمتر را معکوس کند که بیشتر آنها توسط فناوری های اصلی پشتیبانی می شوند. او دنیایی را می بیند که در آن فناوری های کمکی، TTS و حتی فناوری های VR / AR به همه اجازه می دهند به زبان مادری خود صحبت کنند و یاد بگیرند. در این بیانیه آمده است: «ما دنیایی را متصور هستیم که در آن فناوری تأثیر معکوس دارد و مردم را تشویق میکند تا زبان خود را زنده نگه دارند زیرا میتوانند به اطلاعات دسترسی داشته باشند و از فناوری استفاده کنند در حالی که به زبان مادری خود صحبت میکنند.»
همچنین بخوانید: