AI הדיבור של Meta מזהה למעלה מ-4 שפות מדוברות

meta יצר מודל שפת AI שאינו שיבוט של ChatGPT. פרויקט Massively Multilingual Speech (MMS) של החברה יכול לזהות יותר מ-4 שפות מדוברות ולשחזר דיבור (טקסט-לדיבור) ביותר מ-000 שפות. כמו רוב פרויקטי הבינה המלאכותית שלה שהוכרזו בפומבי, Meta היום הופכת גישה פתוחה ל-MMS כדי לעזור לשמר את המגוון הלשוני ולעודד חוקרים לפתח אותו. "היום אנו חולקים בפומבי את המודלים והקוד שלנו כדי ששאר חברי קהילת המחקר יוכלו לבנות על העבודה שלנו", כתבה החברה. "בזכות העבודה הזו, אנו מקווים לתרום תרומה קטנה לשימור המגוון הלשוני המדהים של העולם".

מודלים של זיהוי דיבור וטקסט לדיבור דורשים בדרך כלל הכשרה על אלפי שעות של הקלטות אודיו עם תוויות תמלול נלוות. אבל עבור שפות שאינן מדוברות באופן נרחב במדינות מתועשות - שרבות מהן נמצאות בסכנת הכחדה בעשורים הקרובים - "הנתונים האלה פשוט לא קיימים", אומר מטה.

Meta נקטה בגישה לא שגרתית לאיסוף נתוני אודיו: האזנה להקלטות אודיו של טקסטים דתיים מתורגמים. "פנינו לטקסטים דתיים, כמו התנ"ך, שתורגמו לשפות רבות ושונות ותרגומם נחקר רבות למחקר תרגום מבוסס טקסט", אמרה החברה. "לתרגומים אלה יש הקלטות אודיו זמינות לציבור של אנשים שקוראים את הטקסטים האלה בשפות שונות." על ידי הכללת ערכים לא מסומנים מהתנ"ך וטקסטים דומים, חוקרי המטה הגדילו את מספר השפות הזמינות למודל ליותר מ-4.

"למרות שהתוכן של הקלטות האודיו הוא דתי, הניתוח שלנו מראה שזה לא משפיע על ייצור השפה הדתית יותר של המודל", כותב מטה. "אנו מאמינים שהסיבה לכך היא שאנו משתמשים בגישת סיווג זמני קונקשניסטי (CTC), שהיא הרבה יותר מוגבלת בהשוואה למודלים של שפה גדולה (LLM) או מודלים של רצף לזיהוי דיבור." כמו כן, למרות העובדה שרוב הטקסטים הדתיים נקראו על ידי גברים, זה לא הוביל להטיה גברית - המערכת זיהתה את הקולות הנשיים והגבריים באותה מידה.

לאחר הכשרה של מודל יישור כדי להפוך את הנתונים לשימושים יותר, השתמשה Meta ב-wav2vec 2.0, מודל "למידת ייצוג שפה בפיקוח עצמי" של החברה שיכול ללמוד על נתונים ללא תווית. השילוב של מקורות נתונים לא מסורתיים ומודל דיבור מכוון עצמי הוביל לתוצאות מרשימות. "התוצאות שלנו מראות שמודלים של שידור רב לשוני המוני מתפקדים היטב בהשוואה למודלים קיימים ומכסים פי 10 יותר שפות." במיוחד, Meta השוותה בין MMS לבין Whisper של OpenAI, והתוצאות עלו על הציפיות. "מצאנו שלמודלים שהוכשרו על נתוני דיבור רב-לשוני יש מחצית מאחוז שגיאות המילים, אבל דיבור רב-לשוני מסיבי מכסה פי 11 יותר שפות."

מטה מזהירה שהדגמים החדשים שלה אינם מושלמים. "לדוגמה, קיים סיכון מסוים שמודל הדיבור לטקסט עשוי לתרגם באופן שגוי מילים או ביטויים בודדים", כותבים בחברה. "בהתאם לתוצאה, זה עלול להוביל לשפה פוגענית ו/או לא מדויקת. אנו ממשיכים להאמין ששיתוף פעולה בתוך קהילת הבינה המלאכותית הוא קריטי לפיתוח אחראי של טכנולוגיות בינה מלאכותית".

כעת, כאשר Meta פרסמה MMS למחקר בקוד פתוח, היא מקווה להפוך את המגמה של צמצום מספר השפות בעולם ל-100 או פחות, שרובן נתמכות על ידי טכנולוגיות מרכזיות. היא רואה עולם שבו טכנולוגיה מסייעת, TTS ואפילו טכנולוגיות VR/AR מאפשרות לכל אחד לדבר וללמוד בשפת האם שלו. הוא אומר: "אנו מדמיינים עולם שבו לטכנולוגיה יש השפעה הפוכה, מעודדת אנשים לשמור על שפותיהם בחיים מכיוון שהם יכולים לגשת למידע ולהשתמש בטכנולוגיה תוך כדי שהם מדברים בשפת האם שלהם."

קרא גם:

מָקוֹרEngadget

הירשם

0 תגובות

ביקורות משובצות

הצג את כל ההערות

מאמרים אחרים

AI הדיבור של Meta מזהה למעלה מ-4 שפות מדוברות

תגובות אחרונות