Metin govor AI prepoznaje više od 4 govornih jezika

Meta stvorio AI jezični model koji nije ChatGPT klon. Projekt tvrtke Massively Multilingual Speech (MMS) može prepoznati više od 4 govornih jezika i reproducirati govor (pretvorba teksta u govor) na više od 000 jezika. Kao i većina svojih javno najavljenih AI projekata, Meta danas MMS-u čini otvorenim pristupom kako bi pomogla u očuvanju jezične raznolikosti i potaknula istraživače da ga razvijaju. "Danas javno dijelimo svoje modele i kod tako da drugi članovi istraživačke zajednice mogu graditi na našem radu", napisala je tvrtka. "Zahvaljujući ovom radu, nadamo se da ćemo dati mali doprinos očuvanju nevjerojatne jezične raznolikosti svijeta."

Modeli prepoznavanja govora i pretvaranja teksta u govor obično zahtijevaju obuku na tisućama sati audiozapisa s popratnim oznakama transkripcije. Ali za jezike koji se ne govore široko u industrijaliziranim zemljama – od kojih mnogima prijeti izumiranje u narednim desetljećima – “ovi podaci jednostavno ne postoje”, kaže Meta.

Meta je zauzela nekonvencionalan pristup prikupljanju audio podataka: slušanje audio zapisa prevedenih vjerskih tekstova. "Okrenuli smo se vjerskim tekstovima, poput Biblije, koji su prevedeni na mnoge različite jezike i čiji su prijevodi naširoko proučavani za istraživanje prijevoda temeljeno na tekstu", rekla je tvrtka. "Ovi prijevodi imaju javno dostupne audio snimke ljudi koji čitaju te tekstove na različitim jezicima." Uključivanjem neoznačenih unosa iz Biblije i sličnih tekstova, istraživači Mete povećali su broj jezika dostupnih modelu na više od 4.

"Iako je sadržaj audiosnimki religiozan, naša analiza pokazuje da to ne utječe na proizvodnju religioznijeg jezika modela", piše Meta. "Vjerujemo da je to zato što koristimo pristup konekcionističke vremenske klasifikacije (CTC), koji je mnogo ograničeniji u usporedbi s velikim jezičnim modelima (LLM) ili sekvencijskim modelima za prepoznavanje govora." Također, unatoč činjenici da su većinu vjerskih tekstova čitali muškarci, to nije dovelo do muške pristranosti – sustav je jednako dobro prepoznavao i ženske i muške glasove.

Nakon uvježbavanja modela usklađivanja kako bi podaci bili upotrebljiviji, Meta je koristila wav2vec 2.0, tvrtkin model "samonadziranog učenja predstavljanja jezika" koji može učiti na neoznačenim podacima. Kombinacija netradicionalnih izvora podataka i modela vlastitog govora dovela je do impresivnih rezultata. "Naši rezultati pokazuju da modeli masovnog višejezičnog emitiranja imaju dobre rezultate u usporedbi s postojećim modelima i pokrivaju 10 puta više jezika." Konkretno, Meta je usporedila MMS s OpenAI-jevim Whisperom, a rezultati su nadmašili očekivanja. "Otkrili smo da modeli trenirani na podacima Massively Multilingual Speech imaju upola manji postotak pogrešaka u riječi, ali Massively Multilingual Speech pokriva 11 puta više jezika."

Meta upozorava da njeni novi modeli nisu savršeni. "Na primjer, postoji određeni rizik da model govora u tekst može netočno prevesti pojedinačne riječi ili izraze", piše tvrtka. “Ovisno o ishodu, to može dovesti do uvredljivog i/ili netočnog jezika. I dalje vjerujemo da je suradnja unutar AI zajednice ključna za odgovoran razvoj AI tehnologija.”

Sada kada je Meta izdala MMS za istraživanje otvorenog koda, nada se da će preokrenuti trend smanjenja broja jezika u svijetu na 100 ili manje, od kojih je većina podržana velikim tehnologijama. Ona vidi svijet u kojem pomoćna tehnologija, TTS, pa čak i VR/AR tehnologije omogućuju svima da govore i uče na svom materinjem jeziku. Kaže: "Zamišljamo svijet u kojem tehnologija ima suprotan učinak, potičući ljude da održe svoje jezike živim jer mogu pristupiti informacijama i koristiti tehnologiju govoreći svojim materinjim jezikom."

Pročitajte također:

izvorEngadget

Prijavite se

0 Komentari

Ugrađene recenzije

Pogledaj sve komentare

Ostali članci

Metin govor AI prepoznaje više od 4 govornih jezika

Nedavni komentari