Root NationBalitabalita sa ITKinikilala ng AI ng speech ng Meta ang higit sa 4 sinasalitang wika

Kinikilala ng AI ng speech ng Meta ang higit sa 4 sinasalitang wika

-

meta lumikha ng modelo ng wikang AI na hindi clone ng ChatGPT. Ang proyekto ng Massively Multilingual Speech (MMS) ng kumpanya ay maaaring makilala ang higit sa 4 sinasalitang wika at magparami ng pananalita (text-to-speech) sa higit sa 000 mga wika. Tulad ng karamihan sa mga proyektong AI na inihayag sa publiko, ginagawa ngayon ng Meta ang MMS na bukas na access upang makatulong na mapanatili ang pagkakaiba-iba ng wika at hikayatin ang mga mananaliksik na bumuo nito. "Ngayon ay ibinabahagi namin sa publiko ang aming mga modelo at code upang ang iba pang mga miyembro ng komunidad ng pananaliksik ay maaaring bumuo sa aming trabaho," isinulat ng kumpanya. "Salamat sa gawaing ito, inaasahan naming gumawa ng isang maliit na kontribusyon sa pangangalaga ng hindi kapani-paniwalang pagkakaiba-iba ng wika ng mundo."

meta

Ang speech recognition at text-to-speech na mga modelo ay karaniwang nangangailangan ng pagsasanay sa libu-libong oras ng mga audio recording na may kasamang mga label ng transkripsyon. Ngunit para sa mga wikang hindi gaanong ginagamit sa mga industriyalisadong bansa - marami sa mga ito ay nanganganib na mapuksa sa mga darating na dekada - "ang data na ito ay hindi umiiral," sabi ni Meta.

Ang Meta ay gumamit ng hindi kinaugalian na diskarte sa pagkolekta ng data ng audio: pakikinig sa mga audio recording ng mga isinaling relihiyosong teksto. "Bumaling kami sa mga relihiyosong teksto, tulad ng Bibliya, na isinalin sa maraming iba't ibang wika at ang mga pagsasalin ay malawakang pinag-aralan para sa pananaliksik sa pagsasalin na nakabatay sa teksto," sabi ng kumpanya. "Ang mga pagsasaling ito ay may mga pampublikong available na audio recording ng mga taong nagbabasa ng mga tekstong ito sa iba't ibang wika." Sa pamamagitan ng pagsasama ng walang markang mga entry mula sa Bibliya at mga katulad na teksto, dinagdagan ng mga mananaliksik ng Meta ang bilang ng mga wikang magagamit sa modelo sa mahigit 4.

"Bagaman ang nilalaman ng mga pag-record ng audio ay relihiyoso, ang aming pagsusuri ay nagpapakita na hindi ito nakakaapekto sa paggawa ng modelo ng higit pang relihiyosong pananalita," isinulat ng Meta. "Naniniwala kami na ito ay dahil gumagamit kami ng isang connectionist temporal classification (CTC) na diskarte, na mas limitado kumpara sa mga malalaking modelo ng wika (LLM) o mga modelo ng pagkakasunud-sunod para sa pagkilala sa pagsasalita." Gayundin, sa kabila ng katotohanan na karamihan sa mga relihiyosong teksto ay binasa ng mga lalaki, hindi ito humantong sa isang pagkiling ng lalaki - kinikilala ng sistema ang parehong boses ng babae at lalaki nang pantay-pantay.

Pagkatapos ng pagsasanay ng isang alignment model para gawing mas kapaki-pakinabang ang data, ginamit ng Meta ang wav2vec 2.0, ang modelo ng "self-supervised language representation learning" ng kumpanya na maaaring matuto sa walang label na data. Ang kumbinasyon ng mga hindi tradisyunal na mapagkukunan ng data at isang self-directed na modelo ng pagsasalita ay humantong sa mga kahanga-hangang resulta. "Ipinapakita ng aming mga resulta na ang mga modelo ng mass multilingual na pagsasahimpapawid ay gumaganap nang mahusay kumpara sa mga kasalukuyang modelo at sumasaklaw ng 10 beses na mas maraming wika." Sa partikular, inihambing ng Meta ang MMS sa Whisper ng OpenAI, at ang mga resulta ay lumampas sa mga inaasahan. "Nalaman namin na ang mga modelong sinanay sa data ng Massively Multilingual Speech ay may kalahati ng porsyento ng mga error sa salita, ngunit sumasaklaw ang Massively Multilingual Speech ng 11 beses na mas maraming wika."

Nagbabala ang Meta na ang mga bagong modelo nito ay hindi perpekto. "Halimbawa, may ilang panganib na ang speech-to-text na modelo ay maaaring maling magsalin ng mga indibidwal na salita o parirala," ang isinulat ng kumpanya. “Depende sa kinalabasan, ito ay maaaring humantong sa nakakasakit at/o hindi tumpak na pananalita. Patuloy kaming naniniwala na ang pakikipagtulungan sa loob ng komunidad ng AI ay kritikal sa responsableng pag-unlad ng mga teknolohiya ng AI."

meta

Ngayong naglabas na ang Meta ng MMS para sa open-source na pananaliksik, umaasa itong mababaligtad ang takbo ng pagbabawas ng bilang ng mga wika sa mundo sa 100 o mas kaunti, karamihan sa mga ito ay sinusuportahan ng mga pangunahing teknolohiya. Nakikita niya ang isang mundo kung saan ang teknolohiyang pantulong, TTS at maging ang mga teknolohiya ng VR / AR ay nagbibigay-daan sa lahat na magsalita at matuto sa kanilang sariling wika. Sinasabi nito: "Nakikita namin ang isang mundo kung saan ang teknolohiya ay may kabaligtaran na epekto, na naghihikayat sa mga tao na panatilihing buhay ang kanilang mga wika dahil maaari nilang ma-access ang impormasyon at gumamit ng teknolohiya habang nagsasalita ng kanilang sariling wika."

Basahin din:

JereloEngadget
Mag-sign up
Abisuhan ang tungkol sa
bisita

0 Comments
Naka-embed na Mga Review
Tingnan ang lahat ng komento