Root NationHírekinformatikai újságA Meta beszéd MI-je több mint 4 beszélt nyelvet ismer fel

A Meta beszéd MI-je több mint 4 beszélt nyelvet ismer fel

-

meta létrehozott egy AI nyelvi modellt, amely nem ChatGPT klón. A cég Massively Multilingual Speech (MMS) projektje több mint 4 beszélt nyelvet képes felismerni és több mint 000 nyelven reprodukálni a beszédet (text-to-speech). A legtöbb nyilvánosan bejelentett mesterségesintelligencia-projekthez hasonlóan a Meta ma is nyílt hozzáférést biztosít az MMS-hez, hogy segítsen megőrizni a nyelvi sokszínűséget és ösztönözni a kutatókat annak fejlesztésére. "Ma nyilvánosan megosztjuk modelljeinket és kódjainkat, hogy a kutatói közösség többi tagja építhessen a munkánkra" - írta a vállalat. "Ennek a munkának köszönhetően reméljük, hogy kis mértékben hozzájárulhatunk a világ hihetetlen nyelvi sokszínűségének megőrzéséhez."

meta

A beszédfelismerés és a szövegfelolvasó modellek általában több ezer órányi hangfelvételt igényelnek a kísérő átírási címkékkel. De az iparosodott országokban nem széles körben beszélt nyelvek esetében – amelyek közül sokat a kihalás veszélye fenyeget a következő évtizedekben – „ezek az adatok egyszerűen nem léteznek” – mondja Meta.

A Meta rendhagyó módon közelítette meg a hangos adatgyűjtést: lefordított vallási szövegek hangfelvételeit hallgatta meg. "A vallási szövegekhez fordultunk, például a Bibliához, amelyeket számos különböző nyelvre lefordítottak, és amelyek fordításait széles körben tanulmányozták szövegalapú fordításkutatás céljából" - mondta a cég. "Ezek a fordítások nyilvánosan elérhető hangfelvételekkel rendelkeznek arról, hogy az emberek különböző nyelveken olvassák ezeket a szövegeket." A Bibliából és hasonló szövegekből származó jelöletlen bejegyzésekkel a Meta kutatói több mint 4-re növelték a modell számára elérhető nyelvek számát.

"Bár a hangfelvételek tartalma vallási jellegű, elemzésünk azt mutatja, hogy ez nem befolyásolja a modell vallásosabb nyelvezetét" - írja a Meta. "Úgy gondoljuk, hogy ennek az az oka, hogy konnekcionista időbeli osztályozási (CTC) megközelítést alkalmazunk, amely sokkal korlátozottabb a beszédfelismerésre szolgáló nagy nyelvi modellekhez (LLM) vagy szekvenciamodellekhez képest." Annak ellenére, hogy a vallási szövegek többségét férfiak olvasták, ez nem vezetett férfi elfogultsághoz – a rendszer egyformán jól felismerte a női és a férfi hangot.

Miután betanította az igazítási modellt az adatok használhatóbbá tétele érdekében, a Meta a wav2vec 2.0-t használta, a vállalat „önfelügyelt nyelvi reprezentációs tanulási” modelljét, amely képes tanulni címkézetlen adatokon. A nem hagyományos adatforrások és az önvezérelt beszédmodell kombinációja lenyűgöző eredményekhez vezetett. "Eredményeink azt mutatják, hogy a tömeges többnyelvű műsorszórás modelljei jól teljesítenek a meglévő modellekhez képest, és tízszer több nyelvet fednek le." A Meta az MMS-t az OpenAI Whisperével hasonlította össze, és az eredmények felülmúlták a várakozásokat. "Azt találtuk, hogy a Massively Multilingual Speech adatokra oktatott modellekben feleakkora a szóhibák aránya, de a Massively Multilingual Speech 10-szer több nyelvet fed le."

A Meta arra figyelmeztet, hogy új modelljei nem tökéletesek. "Például fennáll annak a kockázata, hogy a beszéd-szöveg modell hibásan fordítja le az egyes szavakat vagy kifejezéseket" - írja a cég. „Az eredménytől függően ez sértő és/vagy pontatlan nyelvezethez vezethet. Továbbra is hiszünk abban, hogy az AI közösségen belüli együttműködés kritikus fontosságú az AI-technológiák felelős fejlesztése szempontjából.”

meta

Most, hogy a Meta kiadta az MMS-t a nyílt forráskódú kutatáshoz, reméli, hogy megfordítja azt a tendenciát, hogy a világ nyelveinek számát 100-ra vagy kevesebbre csökkentik, amelyek többségét a főbb technológiák támogatják. Olyan világot lát, ahol a kisegítő technológia, a TTS, sőt a VR/AR technológiák lehetővé teszik, hogy mindenki az anyanyelvén beszéljen és tanuljon. Ez így szól: "Olyan világot képzelünk el, ahol a technológia az ellenkező hatást fejti ki, és arra ösztönzi az embereket, hogy tartsák életben a nyelvüket, mert anyanyelvükön beszélve hozzáférhetnek az információkhoz és használhatják a technológiát."

Olvassa el még:

forrásEngadget
Regisztrálj
Értesítés arról
vendég

0 Hozzászólások
Beágyazott vélemények
Az összes megjegyzés megtekintése