خطاب Meta يتعرف AI على أكثر من 4 لغة منطوقة

مييتااا أنشأ نموذج لغة AI ليس نسخة ChatGPT. يمكن لمشروع الشركة متعدد اللغات (MMS) التعرف على أكثر من 4 لغة منطوقة وإعادة إنتاج الكلام (تحويل النص إلى كلام) بأكثر من 000 لغة. مثل معظم مشاريع الذكاء الاصطناعي المعلنة علنًا ، تتيح Meta اليوم الوصول المفتوح إلى MMS للمساعدة في الحفاظ على التنوع اللغوي وتشجيع الباحثين على تطويره. كتبت الشركة "اليوم نشارك نماذجنا ورموزنا علنًا حتى يتمكن الأعضاء الآخرون في مجتمع البحث من البناء على عملنا". "بفضل هذا العمل ، نأمل أن نقدم مساهمة صغيرة في الحفاظ على التنوع اللغوي المذهل في العالم."

تتطلب نماذج التعرف على الكلام وتحويل النص إلى كلام تدريبًا على آلاف الساعات من التسجيلات الصوتية مع تسميات النسخ المصاحبة. ولكن بالنسبة للغات التي لا يتم التحدث بها على نطاق واسع في البلدان الصناعية - وكثير منها مهدد بالانقراض في العقود القادمة - "هذه البيانات ببساطة غير موجودة" ، كما يقول ميتا.

اتخذت Meta نهجًا غير تقليدي لجمع البيانات الصوتية: الاستماع إلى التسجيلات الصوتية للنصوص الدينية المترجمة. وقالت الشركة: "لجأنا إلى النصوص الدينية ، مثل الكتاب المقدس ، التي تُرجمت إلى العديد من اللغات المختلفة والتي تمت دراسة ترجماتها على نطاق واسع من أجل أبحاث الترجمة النصية". "هذه الترجمات لديها تسجيلات صوتية متاحة للجمهور للأشخاص الذين يقرؤون هذه النصوص بلغات مختلفة." من خلال تضمين إدخالات غير مميزة من الكتاب المقدس ونصوص مماثلة ، زاد باحثو Meta عدد اللغات المتاحة للنموذج إلى أكثر من 4.

كتب ميتا: "على الرغم من أن محتوى التسجيلات الصوتية هو محتوى ديني ، إلا أن تحليلنا يظهر أن هذا لا يؤثر على إنتاج النموذج لمزيد من الخطاب الديني". "نعتقد أن السبب في ذلك هو أننا نستخدم نهج التصنيف الزمني للربط (CTC) ، وهو أكثر محدودية مقارنة بنماذج اللغة الكبيرة (LLM) أو نماذج التسلسل للتعرف على الكلام." أيضًا ، على الرغم من حقيقة أن الرجال قد قرأوا معظم النصوص الدينية ، إلا أن هذا لم يؤد إلى تحيز للذكور - فقد تعرف النظام على أصوات كل من الإناث والذكور بشكل جيد.

بعد تدريب نموذج المحاذاة لجعل البيانات أكثر قابلية للاستخدام ، استخدمت Meta wav2vec 2.0 ، نموذج الشركة "لتعليم تمثيل اللغة تحت الإشراف الذاتي" الذي يمكنه التعلم من البيانات غير المسماة. أدى الجمع بين مصادر البيانات غير التقليدية ونموذج الكلام الموجه ذاتيًا إلى نتائج مذهلة. "تظهر نتائجنا أن نماذج البث الجماعي متعدد اللغات تؤدي أداءً جيدًا مقارنة بالنماذج الحالية وتغطي لغات أكثر بعشر مرات." على وجه الخصوص ، قارن Meta MMS مع OpenAI's Whisper ، وفاقت النتائج التوقعات. "وجدنا أن النماذج التي تم تدريبها على بيانات الكلام متعدد اللغات بشكل مكثف تحتوي على نصف النسبة المئوية للأخطاء الكلامية ، ولكن الكلام متعدد اللغات الضخم يغطي لغات أكثر بـ 10 مرة."

تحذر Meta من أن موديلاتها الجديدة ليست مثالية. كتبت الشركة: "على سبيل المثال ، هناك بعض المخاطر من أن نموذج الكلام إلى نص قد يترجم بشكل غير صحيح كلمات أو عبارات فردية". "اعتمادًا على النتيجة ، قد يؤدي ذلك إلى لغة مسيئة و / أو غير دقيقة. ما زلنا نعتقد أن التعاون داخل مجتمع الذكاء الاصطناعي أمر بالغ الأهمية للتطوير المسؤول لتقنيات الذكاء الاصطناعي ".

الآن بعد أن أصدرت Meta رسالة وسائط متعددة للبحث مفتوح المصدر ، فإنها تأمل في عكس الاتجاه المتمثل في تقليل عدد اللغات في العالم إلى 100 لغة أو أقل ، ومعظمها مدعوم بتقنيات رئيسية. إنها ترى عالماً تسمح فيه التكنولوجيا المساعدة ، و TTS وحتى تقنيات VR / AR للجميع بالتحدث والتعلم بلغتهم الأم. تقول: "نتخيل عالماً يكون للتكنولوجيا فيه تأثير معاكس ، حيث نشجع الناس على الحفاظ على لغاتهم حية لأنهم يستطيعون الوصول إلى المعلومات واستخدام التكنولوجيا أثناء التحدث بلغتهم الأصلية."

اقرأ أيضا:

مصدرالتقنية بلا حدود

0 التعليقات

المراجعات المضمنة

عرض كل التعليقات

مقالات أخرى

خطاب Meta يتعرف AI على أكثر من 4 لغة منطوقة

احدث التعليقات