Metas tale-AI gjenkjenner over 4 talespråk

Meta opprettet en AI-språkmodell som ikke er en ChatGPT-klon. Selskapets Massively Multilingual Speech (MMS)-prosjekt kan gjenkjenne mer enn 4 talespråk og reprodusere tale (tekst-til-tale) på mer enn 000 språk. Som de fleste av sine offentlig annonserte AI-prosjekter, gjør Meta i dag MMS åpen tilgang for å bidra til å bevare språklig mangfold og oppmuntre forskere til å utvikle det. "I dag deler vi våre modeller og kode offentlig slik at andre medlemmer av forskningsmiljøet kan bygge videre på arbeidet vårt," skrev selskapet. "Takket være dette arbeidet håper vi å gi et lite bidrag til bevaring av det utrolige språklige mangfoldet i verden."

Talegjenkjenning og tekst-til-tale-modeller krever vanligvis opplæring på tusenvis av timer med lydopptak med tilhørende transkripsjonsetiketter. Men for språk som ikke er utbredt i industrialiserte land - hvorav mange er truet med utryddelse i de kommende tiårene - "disse dataene eksisterer rett og slett ikke," sier Meta.

Meta tok en ukonvensjonell tilnærming til lyddatainnsamling: å lytte til lydopptak av oversatte religiøse tekster. "Vi henvendte oss til religiøse tekster, som Bibelen, som er oversatt til mange forskjellige språk og hvis oversettelser har blitt mye studert for tekstbasert oversettelsesforskning," sa selskapet. "Disse oversettelsene har offentlig tilgjengelige lydopptak av folk som leser disse tekstene på forskjellige språk." Ved å inkludere umerkede oppføringer fra Bibelen og lignende tekster, økte Meta-forskerne antallet språk tilgjengelig for modellen til over 4.

«Selv om innholdet i lydopptakene er religiøst, viser vår analyse at dette ikke påvirker modellens produksjon av mer religiøs tale», skriver Meta. "Vi tror dette er fordi vi bruker en konneksjonistisk tidsklassifisering (CTC) tilnærming, som er mye mer begrenset sammenlignet med store språkmodeller (LLM) eller sekvensmodeller for talegjenkjenning." Til tross for at de fleste religiøse tekstene ble lest av menn, førte ikke dette til en mannlig skjevhet – systemet gjenkjente både kvinnelige og mannsstemmer like godt.

Etter å ha trent opp en justeringsmodell for å gjøre dataene mer brukbare, brukte Meta wav2vec 2.0, selskapets "selvovervåkede språkrepresentasjonslæring"-modell som kan lære på umerkede data. Kombinasjonen av utradisjonelle datakilder og en selvstyrt talemodell førte til imponerende resultater. "Våre resultater viser at modeller for masse-flerspråklig kringkasting gir gode resultater sammenlignet med eksisterende modeller og dekker 10 ganger flere språk." Spesielt sammenlignet Meta MMS med OpenAIs Whisper, og resultatene overgikk forventningene. "Vi fant at modeller trent på Massively Multilingual Speech-data har halvparten av prosentandelen ordfeil, men Massively Multilingual Speech dekker 11 ganger flere språk."

Meta advarer om at de nye modellene ikke er perfekte. «For eksempel er det en viss risiko for at tale-til-tekst-modellen kan feilaktig oversette enkeltord eller fraser», skriver selskapet. "Avhengig av utfallet kan dette føre til støtende og/eller unøyaktig språkbruk. Vi fortsetter å tro at samarbeid innenfor AI-fellesskapet er avgjørende for ansvarlig utvikling av AI-teknologier."

Nå som Meta har gitt ut MMS for åpen kildekode-forskning, håper de å snu trenden med å redusere antall språk i verden til 100 eller færre, hvorav de fleste støttes av store teknologier. Hun ser en verden der hjelpeteknologi, TTS og til og med VR/AR-teknologier lar alle snakke og lære på sitt morsmål. Den sier: "Vi ser for oss en verden der teknologi har motsatt effekt, og oppmuntrer folk til å holde språket sitt i live fordi de kan få tilgang til informasjon og bruke teknologi mens de snakker sitt morsmål."

Les også:

DzhereloEngadget

Melde deg på

0 Kommentar

Innebygde anmeldelser

Se alle kommentarer

Andre artikler

Metas tale-AI gjenkjenner over 4 talespråk

Nylige kommentarer