Umelá inteligencia reči Meta rozpoznáva viac ako 4 000 hovorených jazykov

meta vytvoril jazykový model AI, ktorý nie je klonom ChatGPT. Projekt spoločnosti Massively Multilingual Speech (MMS) dokáže rozpoznať viac ako 4 000 hovorených jazykov a reprodukovať reč (text-to-speech) vo viac ako 1 100 jazykoch. Rovnako ako väčšina svojich verejne oznámených projektov AI, aj Meta dnes umožňuje MMS otvorený prístup, aby pomohla zachovať jazykovú rozmanitosť a povzbudila výskumníkov, aby ju rozvíjali. „Dnes verejne zdieľame naše modely a kód, aby ostatní členovia výskumnej komunity mohli stavať na našej práci,“ napísala spoločnosť. "Vďaka tejto práci dúfame, že malým dielom prispejeme k zachovaniu neuveriteľnej jazykovej rozmanitosti sveta."

Rozpoznávanie reči a modely prevodu textu na reč zvyčajne vyžadujú školenie na tisíckach hodín zvukových nahrávok so sprievodnými prepisovými štítkami. Ale pre jazyky, ktoré nie sú v industrializovaných krajinách rozšírené – mnohým z nich hrozí v najbližších desaťročiach vyhynutie – „tieto údaje jednoducho neexistujú,“ hovorí Meta.

Meta zvolila nekonvenčný prístup k zberu zvukových údajov: počúvanie zvukových nahrávok preložených náboženských textov. "Obrátili sme sa na náboženské texty, ako je napríklad Biblia, ktoré boli preložené do mnohých rôznych jazykov a ktorých preklady boli široko študované pre textový prekladový výskum," uviedla spoločnosť. "Tieto preklady majú verejne dostupné zvukové nahrávky ľudí, ktorí čítajú tieto texty v rôznych jazykoch." Zahrnutím neoznačených záznamov z Biblie a podobných textov výskumníci Meta zvýšili počet jazykov dostupných pre model na viac ako 4 000.

„Hoci je obsah zvukových nahrávok náboženský, naša analýza ukazuje, že to neovplyvňuje modelkinu produkciu náboženskejšej reči,“ píše Meta. "Veríme, že je to preto, že používame prístup konekcionistickej časovej klasifikácie (CTC), ktorý je oveľa obmedzenejší v porovnaní s veľkými jazykovými modelmi (LLM) alebo sekvenčnými modelmi na rozpoznávanie reči." Aj napriek tomu, že väčšinu náboženských textov čítali muži, neviedlo to k mužskej zaujatosti – systém rozpoznal rovnako dobre ženské aj mužské hlasy.

Po trénovaní modelu zarovnania, aby boli údaje použiteľnejšie, Meta použila wav2vec 2.0, firemný model „učenia sa jazykovej reprezentácie s vlastným dozorom“, ktorý sa môže učiť na neoznačených údajoch. Kombinácia netradičných zdrojov údajov a samoriadeného rečového modelu viedla k pôsobivým výsledkom. "Naše výsledky ukazujú, že modely hromadného viacjazyčného vysielania fungujú dobre v porovnaní s existujúcimi modelmi a pokrývajú 10-krát viac jazykov." Meta konkrétne porovnávala MMS s Whisperom od OpenAI a výsledky prekonali očakávania. "Zistili sme, že modely trénované na údajoch o masívnej viacjazyčnej reči majú polovičné percento slovných chýb, ale masívne viacjazyčná reč pokrýva 11-krát viac jazykov."

Meta varuje, že jej nové modely nie sú dokonalé. „Existuje napríklad určité riziko, že model prevodu reči na text môže nesprávne preložiť jednotlivé slová alebo frázy,“ píše spoločnosť. „V závislosti od výsledku to môže viesť k urážlivým a/alebo nepresným jazykom. Naďalej veríme, že spolupráca v rámci komunity AI je rozhodujúca pre zodpovedný vývoj technológií AI.“

Teraz, keď Meta vydala MMS pre open source výskum, dúfa, že zvráti trend znižovania počtu jazykov na svete na 100 alebo menej, z ktorých väčšina je podporovaná hlavnými technológiami. Vidí svet, kde asistenčné technológie, TTS a dokonca aj technológie VR / AR umožňujú každému hovoriť a učiť sa vo svojom rodnom jazyku. Hovorí sa v ňom: „Predstavujeme si svet, v ktorom má technológia opačný efekt a povzbudzuje ľudí, aby udržiavali svoje jazyky nažive, pretože môžu pristupovať k informáciám a používať technológie, pričom hovoria svojim rodným jazykom.“

Prečítajte si tiež:

DzhereloEngadget

Prihlásiť Se

0 Komentáre

Vložené recenzie

Zobraziť všetky komentáre

Ďalšie články

Umelá inteligencia reči Meta rozpoznáva viac ako 4 000 hovorených jazykov

Nedávne komentáre