Root NationZprávyIT novinyUmělá inteligence řeči Meta rozpoznává více než 4 000 mluvených jazyků

Umělá inteligence řeči Meta rozpoznává více než 4 000 mluvených jazyků

-

meta vytvořil jazykový model AI, který není klonem ChatGPT. Projekt společnosti Massively Multilingual Speech (MMS) dokáže rozpoznat více než 4 mluvených jazyků a reprodukovat řeč (text-to-speech) ve více než 000 jazycích. Stejně jako většina svých veřejně oznámených projektů umělé inteligence, Meta dnes umožňuje MMS otevřený přístup, aby pomohla zachovat jazykovou rozmanitost a povzbudit výzkumníky k jejímu rozvoji. „Dnes veřejně sdílíme naše modely a kód, aby na naší práci mohli stavět ostatní členové výzkumné komunity,“ napsala společnost. "Díky této práci doufáme, že trochu přispějeme k zachování neuvěřitelné jazykové rozmanitosti světa."

meta

Rozpoznávání řeči a modely převodu textu na řeč obvykle vyžadují školení na tisících hodin zvukových nahrávek s doprovodnými přepisovými štítky. Ale pro jazyky, kterými se v průmyslových zemích příliš nemluví – z nichž mnohým hrozí v nadcházejících desetiletích zánik – „tato data prostě neexistují,“ říká Meta.

Meta zvolila nekonvenční přístup ke sběru zvukových dat: poslouchala zvukové nahrávky přeložených náboženských textů. "Obrátili jsme se na náboženské texty, jako je Bible, které byly přeloženy do mnoha různých jazyků a jejichž překlady byly široce studovány pro výzkum překladů založených na textu," uvedla společnost. "Tyto překlady mají veřejně dostupné zvukové nahrávky lidí, kteří čtou tyto texty v různých jazycích." Zahrnutím neoznačených záznamů z Bible a podobných textů zvýšili výzkumníci Meta počet jazyků dostupných pro model na více než 4 000.

"Ačkoli je obsah zvukových nahrávek náboženský, naše analýza ukazuje, že to nemá vliv na to, jak modelka produkuje více náboženskou řeč," píše Meta. "Věříme, že je to proto, že používáme přístup konekcionistické časové klasifikace (CTC), který je mnohem omezenější ve srovnání s velkými jazykovými modely (LLM) nebo sekvenčními modely pro rozpoznávání řeči." Také, přestože většinu náboženských textů četli muži, nevedlo to k mužské zaujatosti – systém rozpoznal stejně dobře ženské i mužské hlasy.

Po natrénování modelu zarovnání, aby byla data lépe použitelná, Meta použila wav2vec 2.0, firemní model „učení jazykové reprezentace s vlastním dohledem“, který se může učit na neoznačených datech. Kombinace netradičních zdrojů dat a samořízeného řečového modelu vedla k působivým výsledkům. "Naše výsledky ukazují, že modely hromadného vícejazyčného vysílání fungují dobře ve srovnání se stávajícími modely a pokrývají 10krát více jazyků." Konkrétně Meta porovnávala MMS s Whisperem OpenAI a výsledky předčily očekávání. "Zjistili jsme, že modely trénované na datech Massively Multilingual Speech mají poloviční procento slovních chyb, ale Massively Multilingual Speech pokrývá 11krát více jazyků."

Meta varuje, že její nové modely nejsou dokonalé. "Například existuje určité riziko, že model převodu řeči na text může nesprávně překládat jednotlivá slova nebo fráze," píše společnost. „V závislosti na výsledku to může vést k urážlivým a/nebo nepřesným výrazům. Nadále věříme, že spolupráce v rámci komunity AI je klíčová pro zodpovědný vývoj technologií AI.“

meta

Nyní, když Meta vydala MMS pro open source výzkum, doufá, že zvrátit trend snižování počtu jazyků na světě na 100 nebo méně, z nichž většina je podporována hlavními technologiemi. Vidí svět, kde asistenční technologie, TTS a dokonce technologie VR / AR umožňují každému mluvit a učit se ve svém rodném jazyce. Píše se v něm: „Představujeme si svět, kde má technologie opačný účinek a povzbuzujeme lidi, aby udržovali své jazyky naživu, protože mohou přistupovat k informacím a používat technologie, zatímco mluví svým rodným jazykem.“

Přečtěte si také:

DzhereloEngadget
Přihlásit se
Upozornit na
host

0 Komentáře
Vložené recenze
Zobrazit všechny komentáře