Root NationЖаңылыктарIT жаңылыктарыМетанын сүйлөгөн сөзү AI 4ден ашык сүйлөгөн тилдерди тааныйт

Метанын сүйлөгөн сөзү AI 4ден ашык сүйлөгөн тилдерди тааныйт

-

Meta ChatGPT клону эмес AI тил моделин түздү. Компаниянын Массивдүү көп тилдүү кеп (MMS) долбоору 4ден ашык сүйлөө тилдерин таанып, 000дөн ашык тилде кепти (тексттен сөзгө) кайра чыгара алат. Элге жарыяланган AI долбоорлорунун көбү сыяктуу эле, Мета бүгүн MMSти тилдик көп түрдүүлүктү сактоого жана изилдөөчүлөрдү аны өнүктүрүүгө шыктандырууга ачык мүмкүнчүлүк берет. "Бүгүн биз изилдөө коомчулугунун башка мүчөлөрү биздин ишибизди бекемдей алышы үчүн моделдерибизди жана кодубузду ачык бөлүшүп жатабыз" деп жазган компания. "Бул иштин аркасында биз дүйнөнүн укмуштуудай тилдик көп түрдүүлүгүн сактоого аз да болсо салым кошобуз деп үмүттөнөбүз".

Meta

Кепти таануу жана тексттен сөзгө моделдер, адатта, транскрипция энбелгилери менен миңдеген сааттык аудио жазууларды үйрөтүүнү талап кылат. Ал эми өнөр жайы өнүккөн өлкөлөрдө кеңири жайылбаган тилдер үчүн - алардын көбү жакынкы он жылдыктарда жок болуп кетүү коркунучунда турат - "бул маалыматтар жөн эле жок" дейт Мета.

Мета аудиомаалыматтарды чогултууга адаттан тыш ыкманы карманган: которгон диний тексттердин аудио жазууларын угуу. "Биз көптөгөн башка тилдерге которулган жана текстке негизделген котормо изилдөө үчүн котормолору кеңири изилденген Библия сыяктуу диний тексттерге кайрылдык" деди компания. "Бул котормолордо бул тексттерди ар кайсы тилде окуган адамдардын аудио жазуулары бар." Библиядан жана ушуга окшош тексттерден белгиленбеген жазууларды кошуу менен Мета изилдөөчүлөрү моделге жеткиликтүү тилдердин санын 4ден ашты.

"Аудио жазуулардын мазмуну диний мүнөздө болгону менен, биздин талдоо көрсөткөндөй, бул моделдин көбүрөөк диний тилди чыгаруусуна таасир этпейт", - деп жазат Мета. "Биз чоң тил моделдерине (LLM) же кепти таануунун ырааттуу моделдерине салыштырмалуу бир топ чектелген байланыштык убактылуу классификация (CTC) ыкмасын колдонгонубуз үчүн деп эсептейбиз." Ошондой эле, диний тексттердин көбү эркектер тарабынан окулгандыгына карабастан, бул эркектик көз карашка алып келген жок – система аялдын да, эркектин да үндөрүн бирдей жакшы тааныган.

Берилиштерди колдонууга ыңгайлуу кылуу үчүн тегиздөө моделин үйрөткөндөн кийин, Meta wav2vec 2.0, компаниянын белгиленбеген маалыматтар боюнча үйрөнө ала турган "өз алдынча көзөмөлдөнгөн тилди көрсөтүүнү үйрөнүү" моделин колдонду. Салттуу эмес маалымат булактарынын жана өзүн-өзү башкарган кеп моделинин айкалышы таасирдүү натыйжаларга алып келди. "Биздин жыйынтыктар жапырт көп тилдүү берүүнүн моделдери учурдагы моделдерге салыштырмалуу жакшы иштеп, 10 эсе көп тилди камтый турганын көрсөттү." Атап айтканда, Мета MMSти OpenAI's Whisper менен салыштырып, натыйжалар күткөндөн да ашып түштү. "Биз массалык көп тилдүү сүйлөө маалыматтары боюнча үйрөтүлгөн моделдер сөз каталарынын жарым пайызын түзөрүн таптык, бирок Массивдүү көп тилдүү сүйлөө 11 эсе көп тилди камтыйт."

Meta анын жаңы моделдери идеалдуу эмес экенин эскертет. "Мисалы, кеп-текст модели айрым сөздөрдү же сөз айкаштарын туура эмес которуу ыктымалдыгы бар", - деп жазат компания. «Натыйжага жараша, бул адепсиз жана/же туура эмес сөздөргө алып келиши мүмкүн. Биз AI коомчулугунун ичиндеги кызматташуу AI технологияларын жоопкерчиликтүү өнүктүрүү үчүн маанилүү деп эсептейбиз.

Meta

Эми Meta ачык булактуу изилдөө үчүн MMSти чыгарды, ал дүйнөдөгү тилдердин санын 100гө же андан азыраакка чейин кыскартуу тенденциясын жокко чыгарат деп үмүттөнөт, алардын көпчүлүгү негизги технологиялар тарабынан колдоого алынат. Ал жардамчы технологиялар, TTS жана атүгүл VR / AR технологиялары ар кимге өз эне тилинде сүйлөп, үйрөнүүгө мүмкүндүк берген дүйнөнү көрөт. Анда мындай деп айтылат: "Биз технологиялардын тескери таасири бар, адамдарды өз тилдерин сактап калууга үндөгөн дүйнөнү элестетип жатабыз, анткени алар эне тилинде сүйлөп жатып маалыматка ээ болуп, технологияны колдоно алышат".

Ошондой эле окуңуз:

Булактарыхка
Кирүү
жөнүндө кабарлоо
конок

0 Comments
Камтылган сын-пикирлер
Бардык комментарийлерди көрүү