Metas tal-AI känner igen över 4 000 talade språk

meta skapat en AI-språkmodell som inte är en ChatGPT-klon. Företagets Massively Multilingual Speech (MMS)-projekt kan känna igen mer än 4 000 talade språk och återge tal (text-till-tal) på mer än 1 100 språk. Liksom de flesta av sina offentligt tillkännagivna AI-projekt gör Meta idag MMS öppen åtkomst för att hjälpa till att bevara språklig mångfald och uppmuntra forskare att utveckla den. "Idag delar vi offentligt våra modeller och kod så att andra medlemmar av forskarsamhället kan bygga vidare på vårt arbete", skrev företaget. "Tack vare detta arbete hoppas vi kunna ge ett litet bidrag till bevarandet av världens otroliga språkliga mångfald."

Taligenkänning och text-till-tal-modeller kräver vanligtvis träning i tusentals timmars ljudinspelningar med tillhörande transkriptionsetiketter. Men för språk som inte är allmänt talade i industriländer - av vilka många hotas av utrotning under de kommande decennierna - "finns den här informationen helt enkelt inte", säger Meta.

Meta tog ett okonventionellt tillvägagångssätt för insamling av ljuddata: att lyssna på ljudinspelningar av översatta religiösa texter. "Vi vände oss till religiösa texter, som Bibeln, som har översatts till många olika språk och vars översättningar har studerats brett för textbaserad översättningsforskning", sa företaget. "Dessa översättningar har allmänt tillgängliga ljudinspelningar av människor som läser dessa texter på olika språk." Genom att inkludera omärkta poster från Bibeln och liknande texter ökade Metaforskarna antalet tillgängliga språk för modellen till över 4 000.

"Även om innehållet i ljudinspelningarna är religiöst visar vår analys att detta inte påverkar modellens produktion av mer religiöst språk", skriver Meta. "Vi tror att detta beror på att vi använder en konnektionistisk tidsklassificering (CTC), som är mycket mer begränsad jämfört med stora språkmodeller (LLM) eller sekvensmodeller för taligenkänning." Också, trots att majoriteten av religiösa texter lästes av män, ledde detta inte till en manlig partiskhet – systemet kände igen både kvinnliga och manliga röster lika väl.

Efter att ha tränat en anpassningsmodell för att göra datan mer användbar använde Meta wav2vec 2.0, företagets "self-supervised language representation learning"-modell som kan lära sig på omärkta data. Kombinationen av icke-traditionella datakällor och en självstyrd talmodell ledde till imponerande resultat. "Våra resultat visar att modeller för flerspråkig masssändning presterar bra jämfört med befintliga modeller och täcker 10 gånger fler språk." Speciellt Meta jämförde MMS med OpenAI:s Whisper, och resultaten överträffade förväntningarna. "Vi fann att modeller som tränats på Massively Multilingual Speech-data har hälften så stor andel av ordfel, men Massively Multilingual Speech täcker 11 gånger fler språk."

Meta varnar för att dess nya modeller inte är perfekta. "Det finns till exempel viss risk att tal-till-text-modellen felaktigt kan översätta enskilda ord eller fraser", skriver företaget. "Beroende på resultatet kan detta leda till stötande och/eller felaktigt språkbruk. Vi fortsätter att tro att samarbete inom AI-gemenskapen är avgörande för en ansvarsfull utveckling av AI-teknik."

Nu när Meta har släppt MMS för forskning med öppen källkod hoppas man kunna vända trenden med att minska antalet språk i världen till 100 eller färre, varav de flesta stöds av stora teknologier. Hon ser en värld där hjälpmedel, TTS och till och med VR/AR-teknologier låter alla prata och lära sig på sitt modersmål. Det står: "Vi föreställer oss en värld där teknik har motsatt effekt, och uppmuntrar människor att hålla sina språk vid liv eftersom de kan komma åt information och använda teknik samtidigt som de talar sitt modersmål."

Läs också:

DzhereloEngadget

Bli Medlem

0 Kommentarer

Inbäddade recensioner

Visa alla kommentarer

Andra artiklar

Metas tal-AI känner igen över 4 000 talade språk

Senaste kommentarerna