Metin govor AI prepoznaje preko 4 govornih jezika

Meta kreirao AI jezički model koji nije ChatGPT klon. Projekt kompanije Massively Multilingual Speech (MMS) može prepoznati više od 4 govornih jezika i reproducirati govor (tekst u govor) na više od 000 jezika. Kao i većina svojih javno objavljenih AI projekata, Meta danas otvara MMS pristup kako bi pomogao u očuvanju jezičke raznolikosti i ohrabrio istraživače da je razviju. "Danas javno dijelimo naše modele i kod kako bi drugi članovi istraživačke zajednice mogli nadograđivati naš rad", napisala je kompanija. "Zahvaljujući ovom radu, nadamo se da ćemo dati mali doprinos očuvanju nevjerovatne jezičke raznolikosti svijeta."

Modeli za prepoznavanje govora i pretvaranje teksta u govor obično zahtijevaju obuku o hiljadama sati audio zapisa sa pratećim naljepnicama za transkripciju. Ali za jezike koji se ne govore široko u industrijalizovanim zemljama – od kojih su mnogi u opasnosti od izumiranja u narednim decenijama – „ovi podaci jednostavno ne postoje“, kaže Meta.

Meta je zauzeo nekonvencionalan pristup prikupljanju audio podataka: slušao audio snimke prevedenih vjerskih tekstova. "Okrenuli smo se vjerskim tekstovima, poput Biblije, koji su prevedeni na mnoge različite jezike i čiji su prijevodi naširoko proučavani za istraživanje prijevoda zasnovanog na tekstu", rekli su iz kompanije. "Ovi prijevodi imaju javno dostupne audio snimke ljudi koji čitaju ove tekstove na različitim jezicima." Uključujući neoznačene zapise iz Biblije i sličnih tekstova, istraživači Meta su povećali broj jezika dostupnih modelu na preko 4.

"Iako je sadržaj audio zapisa religiozan, naša analiza pokazuje da to ne utiče na proizvodnju religioznijeg govora modela", piše Meta. "Vjerujemo da je to zato što koristimo pristup vremenske klasifikacije (CTC), koji je mnogo ograničeniji u poređenju s velikim jezičkim modelima (LLM) ili modelima sekvenci za prepoznavanje govora." Također, uprkos činjenici da su većinu vjerskih tekstova čitali muškarci, to nije dovelo do muške predrasude – sistem je podjednako dobro prepoznavao i ženske i muške glasove.

Nakon što je obučio model usklađivanja kako bi podaci učinili upotrebljivijim, Meta je koristio wav2vec 2.0, kompanijski model "samonadziranog učenja predstavljanja jezika" koji može učiti na neoznačenim podacima. Kombinacija netradicionalnih izvora podataka i samousmjerenog govornog modela dovela je do impresivnih rezultata. "Naši rezultati pokazuju da modeli masovnog višejezičnog emitiranja imaju dobre rezultate u poređenju sa postojećim modelima i pokrivaju 10 puta više jezika." Meta je posebno uporedila MMS sa OpenAI-jevim Whisperom, a rezultati su nadmašili očekivanja. „Otkrili smo da modeli obučeni na podacima o masovnom višejezičnom govoru imaju upola manji postotak grešaka u riječima, ali masovno višejezični govor pokriva 11 puta više jezika.“

Meta upozorava da njeni novi modeli nisu savršeni. "Na primjer, postoji određeni rizik da model govora u tekst može pogrešno prevesti pojedinačne riječi ili fraze", piše kompanija. “U zavisnosti od ishoda, ovo može dovesti do uvredljivog i/ili netačnog jezika. I dalje vjerujemo da je suradnja unutar AI zajednice ključna za odgovoran razvoj AI tehnologija.”

Sada kada je Meta objavila MMS za istraživanje otvorenog koda, nada se da će preokrenuti trend smanjenja broja jezika u svijetu na 100 ili manje, od kojih je većina podržana velikim tehnologijama. Ona vidi svijet u kojem pomoćna tehnologija, TTS, pa čak i VR/AR tehnologije omogućavaju svima da govore i uče na svom maternjem jeziku. U njemu se kaže: "Mi zamišljamo svijet u kojem tehnologija ima suprotan učinak, ohrabrujući ljude da održavaju svoje jezike živim jer mogu pristupiti informacijama i koristiti tehnologiju dok govore svoj maternji jezik."

Pročitajte također:

JereloEngadget

Prijaviti se

0 Komentari

Embedded Reviews

Pogledaj sve komentare

Ostali članci

Metin govor AI prepoznaje preko 4 govornih jezika

Nedavni komentari