Root NationНовиниIT новиниAI на речта на Meta разпознава над 4 говорими езика

AI на речта на Meta разпознава над 4 говорими езика

-

Meta създаде AI езиков модел, който не е клонинг на ChatGPT. Проектът на компанията Massively Multilingual Speech (MMS) може да разпознава повече от 4 говорими езика и да възпроизвежда реч (текст към реч) на повече от 000 езика. Подобно на повечето от своите публично обявени AI проекти, Meta днес прави отворен достъп до MMS, за да помогне за запазването на езиковото разнообразие и да насърчи изследователите да го развиват. „Днес ние публично споделяме нашите модели и код, така че други членове на изследователската общност да могат да надграждат върху нашата работа“, пише компанията. „Благодарение на тази работа се надяваме да дадем малък принос за опазването на невероятното езиково разнообразие на света.“

Meta

Моделите за разпознаване на реч и текст към говор обикновено изискват обучение върху хиляди часове аудиозаписи с придружаващи етикети за транскрипция. Но за езици, които не се говорят широко в индустриализираните страни – много от които са застрашени от изчезване през следващите десетилетия – „тези данни просто не съществуват“, казва Мета.

Мета използва нетрадиционен подход към събирането на аудио данни: слушане на аудио записи на преведени религиозни текстове. „Ние се обърнахме към религиозни текстове, като Библията, които са преведени на много различни езици и чиито преводи са широко проучени за изследване на текстови преводи“, каза компанията. „Тези преводи имат публично достъпни аудиозаписи на хора, които четат тези текстове на различни езици.“ Чрез включването на немаркирани записи от Библията и подобни текстове, изследователите на Meta увеличиха броя на езиците, достъпни за модела, до над 4.

„Въпреки че съдържанието на аудиозаписите е религиозно, нашият анализ показва, че това не засяга производството на по-религиозен език от модела“, пише Мета. „Вярваме, че това е така, защото използваме подход на конекционистка темпорална класификация (CTC), който е много по-ограничен в сравнение с големите езикови модели (LLM) или моделите на последователност за разпознаване на реч.“ Също така, въпреки факта, че по-голямата част от религиозните текстове се четат от мъже, това не доведе до мъжки пристрастия – системата разпознаваше еднакво добре както женските, така и мъжките гласове.

След обучение на модел за подравняване, за да направи данните по-използваеми, Meta използва wav2vec 2.0, модел на компанията за „самоконтролирано обучение за езиково представяне“, който може да се учи върху немаркирани данни. Комбинацията от нетрадиционни източници на данни и модел на самонасочена реч доведе до впечатляващи резултати. "Нашите резултати показват, че моделите на масово многоезично излъчване се представят добре в сравнение със съществуващите модели и покриват 10 пъти повече езици." По-специално, Meta сравни MMS с Whisper на OpenAI и резултатите надхвърлиха очакванията. „Открихме, че моделите, обучени на данни от Massively Multilingual Speech, имат половината от процента грешки в думите, но Massively Multilingual Speech покрива 11 пъти повече езици.“

Meta предупреждава, че новите й модели не са перфектни. „Например, съществува известен риск моделът реч към текст да преведе неправилно отделни думи или фрази“, пише компанията. „В зависимост от резултата това може да доведе до обиден и/или неточен език. Ние продължаваме да вярваме, че сътрудничеството в рамките на AI общността е от решаващо значение за отговорното развитие на AI технологиите.“

Meta

Сега, когато Meta пусна MMS за изследване с отворен код, се надява да обърне тенденцията за намаляване на броя на езиците в света до 100 или по-малко, повечето от които се поддържат от основни технологии. Тя вижда свят, в който помощните технологии, TTS и дори VR/AR технологиите позволяват на всеки да говори и учи на родния си език. В него се казва: „Ние си представяме свят, в който технологиите имат обратния ефект, насърчавайки хората да поддържат езиците си живи, защото имат достъп до информация и използват технологии, докато говорят на родния си език.“

Прочетете също:

DzhereloEngadget
Регистрирай се
Уведомете за
гост

0 Коментари
Вградени рецензии
Вижте всички коментари