Root NationJaunumiIT laikrakstsMeta runas AI atpazīst vairāk nekā 4 runāto valodu

Meta runas AI atpazīst vairāk nekā 4 runāto valodu

-

meta izveidoja AI valodas modeli, kas nav ChatGPT klons. Uzņēmuma Massively Multilingual Speech (MMS) projekts var atpazīt vairāk nekā 4 runāto valodu un reproducēt runu (teksta pārvēršana runā) vairāk nekā 000 valodās. Tāpat kā lielākā daļa publiski izziņoto AI projektu, Meta šodien nodrošina MMS atvērtu piekļuvi, lai palīdzētu saglabāt valodu daudzveidību un mudinātu pētniekus to attīstīt. "Šodien mēs publiski kopīgojam savus modeļus un kodu, lai citi pētnieku kopienas locekļi varētu izmantot mūsu darbu," rakstīja uzņēmums. "Pateicoties šim darbam, mēs ceram sniegt nelielu ieguldījumu pasaules neticamās valodu daudzveidības saglabāšanā."

meta

Runas atpazīšanas un teksta pārvēršanas runā modeļiem parasti ir nepieciešama apmācība par tūkstošiem stundu audio ierakstu ar pievienotajām transkripcijas etiķetēm. Bet valodām, kuras netiek plaši lietotas rūpnieciski attīstītajās valstīs, no kurām daudzas ir pakļautas izzušanas riskam nākamajās desmitgadēs, "šie dati vienkārši nepastāv," saka Meta.

Meta izmantoja netradicionālu pieeju audio datu vākšanai: klausījās tulkoto reliģisko tekstu audioierakstus. "Mēs pievērsāmies reliģiskiem tekstiem, piemēram, Bībelei, kas ir tulkoti daudzās dažādās valodās un kuru tulkojumi ir plaši pētīti uz tekstu balstītai tulkošanas izpētei," sacīja uzņēmums. "Šajos tulkojumos ir publiski pieejami audio ieraksti, kuros redzami cilvēki, kuri lasa šos tekstus dažādās valodās." Iekļaujot neatzīmētus ierakstus no Bībeles un līdzīgus tekstus, Meta pētnieki palielināja modelim pieejamo valodu skaitu līdz vairāk nekā 4.

"Lai gan audioierakstu saturs ir reliģisks, mūsu analīze liecina, ka tas neietekmē modeļa radīto reliģiskāku runu," raksta Meta. "Mēs uzskatām, ka tas ir tāpēc, ka mēs izmantojam konnekcionistisku laika klasifikācijas (CTC) pieeju, kas ir daudz ierobežotāka salīdzinājumā ar lielajiem valodas modeļiem (LLM) vai secības modeļiem runas atpazīšanai." Tāpat, neskatoties uz to, ka lielāko daļu reliģisko tekstu lasīja vīrieši, tas neizraisīja vīriešu aizspriedumus – sistēma vienlīdz labi atpazina gan sieviešu, gan vīriešu balsis.

Pēc pielīdzināšanas modeļa apmācības, lai padarītu datus izmantojamākus, Meta izmantoja wav2vec 2.0 — uzņēmuma "pašuzraudzītas valodas reprezentācijas mācīšanās" modeli, kas var mācīties no nemarķētiem datiem. Netradicionālu datu avotu un pašvadīta runas modeļa kombinācija radīja iespaidīgus rezultātus. "Mūsu rezultāti liecina, ka masveida daudzvalodu apraides modeļi darbojas labi salīdzinājumā ar esošajiem modeļiem un aptver 10 reizes vairāk valodu." Jo īpaši Meta salīdzināja MMS ar OpenAI Whisper, un rezultāti pārsniedza cerības. "Mēs atklājām, ka modeļos, kas apmācīti, izmantojot masveida daudzvalodu runas datus, ir uz pusi mazāks vārdu kļūdu procents, bet masveidā daudzvalodu runa aptver 11 reizes vairāk valodu."

Meta brīdina, ka tās jaunie modeļi nav ideāli. "Piemēram, pastāv zināms risks, ka runas-teksta modelis var nepareizi iztulkot atsevišķus vārdus vai frāzes," raksta uzņēmums. “Atkarībā no iznākuma tas var radīt aizskarošu un/vai neprecīzu valodu. Mēs joprojām uzskatām, ka sadarbība AI kopienā ir ļoti svarīga atbildīgai AI tehnoloģiju attīstībai.

meta

Tagad, kad Meta ir izlaidusi MMS atklātā pirmkoda pētījumiem, tā cer mainīt tendenci samazināt valodu skaitu pasaulē līdz 100 vai mazāk, no kurām lielāko daļu atbalsta galvenās tehnoloģijas. Viņa redz pasauli, kurā palīgtehnoloģijas, TTS un pat VR/AR tehnoloģijas ļauj ikvienam runāt un mācīties savā dzimtajā valodā. Tajā teikts: "Mēs iztēlojamies pasauli, kurā tehnoloģijai ir pretējs efekts, mudinot cilvēkus saglabāt savas valodas dzīvas, jo viņi var piekļūt informācijai un izmantot tehnoloģijas, runājot savā dzimtajā valodā."

Lasi arī:

JereloEngadget
Pierakstīties
Paziņot par
viesis

0 komentāri
Iegultās atsauksmes
Skatīt visus komentārus