Meta створила мовну модель штучного інтелекту, яка не є клоном ChatGPT. Проєкт компанії Massively Multilingual Speech (MMS) може розпізнавати понад 4 000 розмовних мов і відтворювати мовлення (текст до мовлення) більш ніж 1 100 мовами. Як і більшість інших своїх публічно оголошених проєктів у галузі штучного інтелекту, сьогодні Meta надає відкритий доступ до MMS, щоб допомогти зберегти мовне розмаїття та заохотити дослідників розвивати його. “Сьогодні ми публічно ділимося нашими моделями та кодом, щоб інші члени дослідницької спільноти могли спиратися на нашу роботу”, – написала компанія. “Завдяки цій роботі ми сподіваємося зробити невеликий внесок у збереження неймовірного мовного розмаїття світу”.
Моделі розпізнавання мовлення та перетворення тексту в мовлення зазвичай вимагають навчання на тисячах годин аудіозаписів із супровідними транскрипційними мітками. Але для мов, які не є широко вживаними в індустріально розвинених країнах – багато з яких перебувають під загрозою зникнення в найближчі десятиліття – “цих даних просто не існує”, як каже Meta.
Meta застосувала нетрадиційний підхід до збору аудіоданих: прослуховування аудіозаписів перекладених релігійних текстів. “Ми звернулися до релігійних текстів, таких як Біблія, які були перекладені багатьма різними мовами та переклади яких широко вивчалися для дослідження перекладу на основі тексту, – розповідають у компанії. “Ці переклади мають загальнодоступні аудіозаписи людей, які читають ці тексти різними мовами”. Включивши немарковані записи Біблії та подібних текстів, дослідники Meta збільшили кількість мов, доступних для моделі, до понад 4 000.
“Хоча зміст аудіозаписів є релігійним, наш аналіз показує, що це не впливає на те, що модель продукує більше релігійної мови, – пише Meta. “Ми вважаємо, що це тому, що ми використовуємо підхід коннекціоністської часової класифікації (CTC), який є набагато більш обмеженим порівняно з великими мовними моделями (LLM) або моделями послідовності для розпізнавання мовлення”. Крім того, незважаючи на те, що більшість релігійних записів читали чоловіки, це не призвело до чоловічого упередження – система однаково добре розпізнає як жіночі, так і чоловічі голоси.
Після навчання моделі вирівнювання, щоб зробити дані більш придатними для використання, Meta використала wav2vec 2.0, модель “самоконтрольованого навчання представлення мови” компанії, яка може навчатися на немаркованих даних. Поєднання нетрадиційних джерел даних та самокерованої мовленнєвої моделі призвело до вражаючих результатів. “Наші результати показують, що моделі масового багатомовного мовлення добре працюють порівняно з існуючими моделями й охоплюють в 10 разів більше мов”. Зокрема, Meta порівняв MMS з Whisper від OpenAI, і результати перевершили очікування. “Ми виявили, що моделі, навчені на даних Massively Multilingual Speech, мають вдвічі менший відсоток помилок у словах, але Massively Multilingual Speech охоплює в 11 разів більше мов”.
Meta попереджає, що її нові моделі не є ідеальними. “Наприклад, існує певний ризик того, що модель перетворення мови в текст може неправильно перекласти окремі слова або фрази, – пише компанія. “Залежно від результату, це може призвести до образливої та/або неточної мови. Ми продовжуємо вважати, що співпраця в рамках ШІ-спільноти має вирішальне значення для відповідального розвитку ШІ-технологій”.
Тепер, коли Meta випустила MMS для досліджень з відкритим вихідним кодом, вона сподівається, що зможе змінити тенденцію до скорочення кількості мов у світі до 100 або менше, які найчастіше підтримуються великими технологіями. Вона бачить світ, де допоміжні технології, TTS і навіть технології VR / AR дозволяють кожному говорити та вчитися рідною мовою. У ньому сказано: “Ми уявляємо світ, де технології мають протилежний ефект, заохочуючи людей зберігати свої мови живими, оскільки вони можуть отримувати доступ до інформації та користуватися технологіями, розмовляючи своєю рідною мовою”.
Читайте також :
Leave a Reply