Metin govor AI prepozna več kot 4 govorjenih jezikov

Meta ustvaril jezikovni model AI, ki ni klon ChatGPT. Projekt podjetja Massively Multilingual Speech (MMS) lahko prepozna več kot 4 govorjenih jezikov in reproducira govor (besedilo v govor) v več kot 000 jezikih. Tako kot večina svojih javno objavljenih projektov umetne inteligence tudi Meta danes MMS omogoča odprt dostop, da pomaga ohranjati jezikovno raznolikost in spodbuja raziskovalce k njenemu razvoju. "Danes javno delimo naše modele in kodo, da lahko drugi člani raziskovalne skupnosti nadgradijo naše delo," je zapisalo podjetje. "Zahvaljujoč temu delu upamo, da bomo malo prispevali k ohranjanju neverjetne jezikovne raznolikosti sveta."

Modeli prepoznavanja govora in pretvorbe besedila v govor običajno zahtevajo usposabljanje na tisočih urah zvočnih posnetkov s spremljajočimi oznakami za prepis. Toda za jezike, ki niso razširjeni v industrializiranih državah – mnogim od njih grozi izumrtje v prihodnjih desetletjih – »ti podatki preprosto ne obstajajo,« pravi Meta.

Meta je ubrala nekonvencionalen pristop k zbiranju zvočnih podatkov: poslušanje zvočnih posnetkov prevedenih verskih besedil. "Obrnili smo se na verska besedila, kot je Sveto pismo, ki so bila prevedena v veliko različnih jezikov in katerih prevodi so bili obsežno preučevani za raziskave prevajanja na podlagi besedil," so sporočili iz podjetja. "Ti prevodi imajo javno dostopne zvočne posnetke ljudi, ki berejo ta besedila v različnih jezikih." Z vključitvijo neoznačenih vnosov iz Svetega pisma in podobnih besedil so raziskovalci Mete povečali število jezikov, ki so na voljo modelu, na več kot 4.

"Čeprav je vsebina zvočnih posnetkov verska, naša analiza kaže, da to ne vpliva na produkcijo bolj religioznega jezika modela," piše Meta. "Verjamemo, da je to zato, ker uporabljamo pristop povezovalne časovne klasifikacije (CTC), ki je veliko bolj omejen v primerjavi z velikimi jezikovnimi modeli (LLM) ali modeli zaporedja za prepoznavanje govora." Tudi kljub dejstvu, da so večino verskih besedil brali moški, to ni vodilo v moško pristranskost – sistem je enako dobro prepoznal tako ženske kot moške glasove.

Po usposabljanju modela poravnave, da bi bili podatki bolj uporabni, je Meta uporabila wav2vec 2.0, model podjetja za "samonadzorovano učenje jezikovne reprezentacije", ki se lahko uči na neoznačenih podatkih. Kombinacija netradicionalnih podatkovnih virov in govornega modela v lastni režiji je privedla do impresivnih rezultatov. "Naši rezultati kažejo, da modeli množičnega večjezičnega oddajanja delujejo dobro v primerjavi z obstoječimi modeli in pokrivajo 10-krat več jezikov." Meta je še posebej primerjala MMS z Whisperjem OpenAI in rezultati so presegli pričakovanja. "Ugotovili smo, da imajo modeli, usposobljeni na podatkih o množičnem večjezičnem govoru, polovico manjši odstotek besednih napak, vendar pa masovni večjezični govor pokriva 11-krat več jezikov."

Meta opozarja, da njeni novi modeli niso popolni. "Na primer, obstaja nekaj tveganja, da lahko model govora v besedilo nepravilno prevede posamezne besede ali fraze," piše podjetje. »Odvisno od izida lahko to privede do žaljivega in/ali netočnega jezika. Še naprej verjamemo, da je sodelovanje znotraj skupnosti AI ključnega pomena za odgovoren razvoj tehnologij AI.”

Zdaj, ko je Meta izdala MMS za odprtokodne raziskave, upa, da bo obrnila trend zmanjševanja števila jezikov na svetu na 100 ali manj, od katerih jih večina podpira glavne tehnologije. Vidi svet, v katerem podporna tehnologija, TTS in celo tehnologije VR/AR vsem omogočajo, da govorijo in se učijo v svojem maternem jeziku. Piše: "Predstavljamo si svet, v katerem ima tehnologija nasprotni učinek, saj spodbuja ljudi, da ohranijo svoj jezik pri življenju, saj lahko dostopajo do informacij in uporabljajo tehnologijo, medtem ko govorijo svoj materni jezik."

Preberite tudi:

JereloEngadget

Prijavite se

0 Komentarji

Vdelana mnenja

Prikaži vse komentarje

Drugi članki

Metin govor AI prepozna več kot 4 govorjenih jezikov

Nedavni komentarji