Metas tale-AI genkender over 4 talte sprog

Meta skabt en AI-sprogmodel, der ikke er en ChatGPT-klon. Virksomhedens Massively Multilingual Speech (MMS)-projekt kan genkende mere end 4 talte sprog og gengive tale (tekst-til-tale) på mere end 000 sprog. Som de fleste af dets offentligt annoncerede AI-projekter gør Meta i dag MMS åben adgang for at hjælpe med at bevare sproglig mangfoldighed og tilskynde forskere til at udvikle den. "I dag deler vi vores modeller og kode offentligt, så andre medlemmer af forskningsmiljøet kan bygge videre på vores arbejde," skrev virksomheden. "Takket være dette arbejde håber vi at kunne yde et lille bidrag til bevarelsen af den utrolige sproglige mangfoldighed i verden."

Talegenkendelse og tekst-til-tale-modeller kræver typisk træning i tusindvis af timers lydoptagelser med tilhørende transskriptionsetiketter. Men for sprog, der ikke er udbredt i industrialiserede lande - hvoraf mange er truet af udryddelse i de kommende årtier - "eksisterer disse data simpelthen ikke," siger Meta.

Meta tog en ukonventionel tilgang til lyddataindsamling: lytte til lydoptagelser af oversatte religiøse tekster. "Vi henvendte os til religiøse tekster, såsom Bibelen, som er blevet oversat til mange forskellige sprog, og hvis oversættelser er blevet bredt undersøgt til tekstbaseret oversættelsesforskning," sagde virksomheden. "Disse oversættelser har offentligt tilgængelige lydoptagelser af folk, der læser disse tekster på forskellige sprog." Ved at inkludere umarkerede indgange fra Bibelen og lignende tekster øgede Meta-forskerne antallet af tilgængelige sprog til modellen til over 4.

"Selvom indholdet af lydoptagelserne er religiøst, viser vores analyse, at det ikke påvirker modellens produktion af mere religiøst sprog," skriver Meta. "Vi mener, at dette skyldes, at vi bruger en forbindelsesmæssig tidsklassifikation (CTC) tilgang, som er meget mere begrænset sammenlignet med store sprogmodeller (LLM) eller sekvensmodeller til talegenkendelse." Også på trods af, at størstedelen af religiøse tekster blev læst af mænd, førte dette ikke til en mandlig skævhed - systemet genkendte både kvindelige og mandlige stemmer lige godt.

Efter at have trænet en tilpasningsmodel for at gøre dataene mere anvendelige, brugte Meta wav2vec 2.0, virksomhedens "selvovervågede sprogrepræsentationslæringsmodel", der kan lære på umærkede data. Kombinationen af ikke-traditionelle datakilder og en selvstyret talemodel førte til imponerende resultater. "Vores resultater viser, at modeller for flersproget masseudsendelse klarer sig godt sammenlignet med eksisterende modeller og dækker 10 gange flere sprog." Især Meta sammenlignede MMS med OpenAI's Whisper, og resultaterne oversteg forventningerne. "Vi fandt ud af, at modeller trænet på Massively Multilingual Speech-data har halvdelen af procentdelen af ordfejl, men Massively Multilingual Speech dækker 11 gange flere sprog."

Meta advarer om, at dens nye modeller ikke er perfekte. "Der er for eksempel en vis risiko for, at tale-til-tekst-modellen fejlagtigt oversætter enkelte ord eller sætninger," skriver virksomheden. "Afhængigt af resultatet kan dette føre til stødende og/eller unøjagtigt sprogbrug. Vi tror fortsat på, at samarbejde inden for AI-fællesskabet er afgørende for den ansvarlige udvikling af AI-teknologier."

Nu hvor Meta har frigivet MMS til open source-forskning, håber det at vende tendensen med at reducere antallet af sprog i verden til 100 eller færre, hvoraf de fleste er understøttet af store teknologier. Hun ser en verden, hvor hjælpeteknologi, TTS og endda VR/AR-teknologier giver alle mulighed for at tale og lære på deres modersmål. Den siger: "Vi forestiller os en verden, hvor teknologi har den modsatte effekt, og opmuntrer folk til at holde deres sprog i live, fordi de kan få adgang til information og bruge teknologi, mens de taler deres modersmål."

Læs også:

DzhereloEngadget

Tilmelde

0 Kommentarer

Indlejrede anmeldelser

Se alle kommentarer

Andre artikler

Metas tale-AI genkender over 4 talte sprog

Seneste kommentarer