Root NationВестиИТ вестиГоворната вештачка интелигенција на Мета препознава над 4 говорни јазици

Говорната вештачка интелигенција на Мета препознава над 4 говорни јазици

-

мета создаде модел на јазик за вештачка интелигенција кој не е клон ChatGPT. Проектот на компанијата Massively Multilingual Speech (MMS) може да препознае повеќе од 4 говорни јазици и да репродуцира говор (текст во говор) на повеќе од 000 јазици. Како и повеќето од своите јавно објавени проекти за вештачка интелигенција, Мета денес го прави MMS отворен пристап за да помогне во зачувувањето на јазичната разновидност и да ги охрабри истражувачите да го развијат. „Денес јавно ги споделуваме нашите модели и кодови за да можат другите членови на истражувачката заедница да ја надоградат нашата работа“, напиша компанијата. „Благодарение на оваа работа, се надеваме дека ќе дадеме мал придонес во зачувувањето на неверојатната лингвистичка разновидност на светот.

мета

Моделите за препознавање говор и текст во говор обично бараат обука за илјадници часови аудио снимки со придружни етикети за транскрипција. Но, за јазиците што не се зборуваат широко во индустријализираните земји - од кои многу се изложени на ризик од исчезнување во наредните децении - „овие податоци едноставно не постојат“, вели Мета.

Мета зеде неконвенционален пристап кон собирањето аудио податоци: слушање аудио снимки од преведени верски текстови. „Се свртевме кон религиозните текстови, како што е Библијата, кои се преведени на многу различни јазици и чии преводи беа широко проучувани за истражување на превод базиран на текст“, велат од компанијата. „Овие преводи имаат јавно достапни аудио снимки од луѓе кои ги читаат овие текстови на различни јазици. Со вклучување на необележани записи од Библијата и слични текстови, истражувачите на Мета го зголемија бројот на јазици што му се достапни на моделот на над 4.

„Иако содржината на аудио снимките е религиозна, нашата анализа покажува дека тоа не влијае на производството на повеќе религиозен говор од страна на моделот“, пишува Мета. „Веруваме дека ова е затоа што користиме пристап на конекционистичка временска класификација (CTC), кој е многу поограничен во споредба со големите јазични модели (LLM) или моделите на секвенци за препознавање говор“. Исто така, и покрај фактот што повеќето религиозни текстови ги читаа мажи, тоа не доведе до машка пристрасност - системот подеднакво добро ги препозна и женските и машките гласови.

Откако го обучи моделот за усогласување за да ги направи податоците поупотребливи, Мета го искористи wav2vec 2.0, моделот на компанијата „само-надгледувано учење за претставување јазик“ што може да учи на податоци без ознака. Комбинацијата на нетрадиционални извори на податоци и модел на самонасочен говор доведе до импресивни резултати. „Нашите резултати покажуваат дека моделите на масовно повеќејазично емитување имаат добри резултати во споредба со постоечките модели и покриваат 10 пати повеќе јазици. Конкретно, Мета го спореди MMS со Whisper на OpenAI, а резултатите ги надминаа очекувањата. „Откривме дека моделите обучени на податоци за Massively Multilingual Speech имаат половина од процентот на грешки во зборовите, но Massively Multilingual Speech опфаќа 11 пати повеќе јазици.

Мета предупредува дека нејзините нови модели не се совршени. „На пример, постои одреден ризик дека моделот говор во текст може погрешно да преведува поединечни зборови или фрази“, пишува компанијата. „Во зависност од исходот, ова може да доведе до навредлив и/или неточен јазик. Продолжуваме да веруваме дека соработката во заедницата на вештачка интелигенција е клучна за одговорниот развој на технологиите за вештачка интелигенција“.

мета

Сега кога Мета објави MMS за истражување со отворен код, се надева дека ќе го промени трендот на намалување на бројот на јазици во светот на 100 или помалку, од кои повеќето се поддржани од големи технологии. Таа гледа свет каде помошната технологија, TTS, па дури и VR/AR технологиите им овозможуваат на сите да зборуваат и учат на својот мајчин јазик. Во него се вели: „Замислуваме свет каде технологијата има спротивен ефект, охрабрувајќи ги луѓето да ги одржуваат своите јазици во живот бидејќи можат да пристапат до информации и да користат технологија додека го зборуваат својот мајчин јазик“.

Прочитајте исто така:

JereloEngadget
Пријавете се
Известете за
гостин

0 коментари
Вградени критики
Прикажи ги сите коментари
Претплатете се за ажурирања