Meta kalbos AI atpažįsta daugiau nei 4 šnekamųjų kalbų

meta sukūrė AI kalbos modelį, kuris nėra ChatGPT klonas. Įmonės projektas Massively Multilingual Speech (MMS) gali atpažinti daugiau nei 4 šnekamųjų kalbų ir atkurti kalbą (tekstas į kalbą) daugiau nei 000 kalbų. Kaip ir dauguma viešai paskelbtų AI projektų, „Meta“ šiandien suteikia atvirą MMS prieigą, kad padėtų išsaugoti kalbų įvairovę ir paskatintų tyrėjus ją plėtoti. „Šiandien viešai dalijamės savo modeliais ir kodu, kad kiti mokslininkų bendruomenės nariai galėtų remtis mūsų darbu“, – rašė bendrovė. „Šio darbo dėka tikimės šiek tiek prisidėti prie neįtikėtinos pasaulio kalbinės įvairovės išsaugojimo.

Kalbos atpažinimo ir teksto į kalbą modeliams paprastai reikia mokytis tūkstančius valandų garso įrašų su pridedamomis transkripcijos etiketėmis. Tačiau kalbant apie kalbas, kurios nėra plačiai vartojamos pramoninėse šalyse, kurių daugeliui gresia išnykimas ateinančiais dešimtmečiais, „šių duomenų tiesiog nėra“, – sako Meta.

Į garso duomenų rinkimą Meta laikėsi netradicinio požiūrio: klausėsi išverstų religinių tekstų garso įrašų. „Mes kreipėmės į religinius tekstus, tokius kaip Biblija, kurie buvo išversti į daugybę skirtingų kalbų ir kurių vertimai buvo plačiai ištirti teksto vertimo tyrimams“, – teigė bendrovė. „Šie vertimai turi viešai prieinamus garso įrašus, kuriuose žmonės skaito šiuos tekstus įvairiomis kalbomis. Įtraukę nepažymėtus įrašus iš Biblijos ir panašių tekstų, Meta tyrinėtojai padidino modeliui prieinamų kalbų skaičių iki daugiau nei 4.

„Nors garso įrašų turinys yra religinis, mūsų analizė rodo, kad tai neturi įtakos modelio religingesnės kalbos kūrimui“, – rašo Meta. „Manome, kad taip yra todėl, kad naudojame konnekcionistinį laiko klasifikavimo (CTC) metodą, kuris yra daug labiau ribotas, palyginti su didelės kalbos modeliais (LLM) arba kalbos atpažinimo sekos modeliais. Be to, nepaisant to, kad daugumą religinių tekstų skaitė vyrai, tai nesukėlė vyriško nusistatymo – sistema vienodai gerai atpažino ir moterišką, ir vyrišką balsą.

Išmokęs derinimo modelį, kad duomenis būtų lengviau naudoti, „Meta“ panaudojo „wav2vec 2.0“ – įmonės „savarankiškai prižiūrimą kalbos vaizdavimo mokymosi“ modelį, kuris gali mokytis naudojant nepažymėtus duomenis. Netradicinių duomenų šaltinių ir savarankiško kalbos modelio derinys davė įspūdingų rezultatų. „Mūsų rezultatai rodo, kad masinio daugiakalbio transliavimo modeliai veikia gerai, palyginti su esamais modeliais ir apima 10 kartų daugiau kalbų. Visų pirma, Meta palygino MMS su OpenAI Whisper, o rezultatai pranoko lūkesčius. „Mes nustatėme, kad modeliai, parengti naudojant masinės daugiakalbės kalbos duomenis, turi pusę procento žodžių klaidų, tačiau masinė daugiakalbė kalba apima 11 kartų daugiau kalbų.

„Meta“ perspėja, kad nauji jos modeliai nėra tobuli. „Pavyzdžiui, yra tam tikra rizika, kad kalbėjimo į tekstą modelis gali neteisingai išversti atskirus žodžius ar frazes“, – rašo bendrovė. „Priklausomai nuo rezultato, tai gali sukelti įžeidžiančią ir (arba) netikslią kalbą. Mes ir toliau tikime, kad bendradarbiavimas AI bendruomenėje yra labai svarbus atsakingai AI technologijų plėtrai.

Dabar, kai „Meta“ išleido MMS atvirojo kodo tyrimams, ji tikisi pakeisti tendenciją sumažinti kalbų skaičių pasaulyje iki 100 ar mažiau, kurių daugumą palaiko pagrindinės technologijos. Ji mato pasaulį, kuriame pagalbinės technologijos, TTS ir net VR / AR technologijos leidžia kiekvienam kalbėti ir mokytis savo gimtąja kalba. Jame sakoma: „Mes įsivaizduojame pasaulį, kuriame technologijos turi priešingą poveikį, skatinančios žmones išlaikyti savo kalbas gyvas, nes jie gali pasiekti informaciją ir naudotis technologijomis kalbėdami savo gimtąja kalba.

Taip pat skaitykite:

JerelasDS

Registruotis

0 komentarai

Įterptieji atsiliepimai

Žiūrėti visus komentarus

Kiti straipsniai

Meta kalbos AI atpažįsta daugiau nei 4 šnekamųjų kalbų

Naujausi Komentarai