Root NationȘtiriștiri ITIA de vorbire a lui Meta recunoaște peste 4 de limbi vorbite

IA de vorbire a lui Meta recunoaște peste 4 de limbi vorbite

-

meta a creat un model de limbaj AI care nu este o clonă ChatGPT. Proiectul Massively Multilingual Speech (MMS) al companiei poate recunoaște peste 4 de limbi vorbite și poate reproduce vorbirea (text-to-speech) în peste 000 de limbi. La fel ca majoritatea proiectelor sale de inteligență artificială anunțate public, Meta astăzi oferă acces deschis MMS pentru a ajuta la păstrarea diversității lingvistice și pentru a încuraja cercetătorii să o dezvolte. „Astăzi împărtășim public modelele și codul nostru, astfel încât alți membri ai comunității de cercetare să poată construi pe baza muncii noastre”, a scris compania. „Mulțumită acestei lucrări, sperăm să aducem o mică contribuție la conservarea diversității lingvistice incredibile a lumii”.

meta

Modelele de recunoaștere a vorbirii și de transformare a textului în vorbire necesită de obicei antrenament pe mii de ore de înregistrări audio cu etichete de transcriere însoțitoare. Dar pentru limbile care nu sunt vorbite pe scară largă în țările industrializate – dintre care multe sunt în pericol de dispariție în următoarele decenii – „aceste date pur și simplu nu există”, spune Meta.

Meta a adoptat o abordare neconvențională a colectării datelor audio: ascultarea înregistrărilor audio ale textelor religioase traduse. „Ne-am orientat către texte religioase, cum ar fi Biblia, care au fost traduse în multe limbi diferite și ale căror traduceri au fost studiate pe scară largă pentru cercetarea traducerilor bazate pe text”, a spus compania. „Aceste traduceri au înregistrări audio disponibile public cu persoane care citesc aceste texte în diferite limbi.” Prin includerea unor intrări nemarcate din Biblie și texte similare, cercetătorii Meta au crescut numărul de limbi disponibile modelului la peste 4.

„Deși conținutul înregistrărilor audio este religios, analiza noastră arată că acest lucru nu afectează producția modelului de limbaj mai religios”, scrie Meta. „Credem că acest lucru se datorează faptului că folosim o abordare de clasificare temporală conecționistă (CTC), care este mult mai limitată în comparație cu modelele de limbaj mari (LLM) sau modelele de secvență pentru recunoașterea vorbirii”. De asemenea, în ciuda faptului că majoritatea textelor religioase au fost citite de bărbați, acest lucru nu a condus la o părtinire masculină – sistemul recunoaște atât vocile feminine, cât și vocile masculine la fel de bine.

După ce a antrenat un model de aliniere pentru a face datele mai utilizabile, Meta a folosit wav2vec 2.0, modelul companiei de „învățare auto-supravegheată a reprezentării limbii” care poate învăța pe date neetichetate. Combinația dintre surse de date netradiționale și un model de vorbire autodirijată a condus la rezultate impresionante. „Rezultatele noastre arată că modelele de difuzare multilingvă în masă au rezultate bune în comparație cu modelele existente și acoperă de 10 ori mai multe limbi.” În special, Meta a comparat MMS cu Whisper de la OpenAI, iar rezultatele au depășit așteptările. „Am descoperit că modelele instruite pe datele Massively Multilingual Speech au jumătate din procentul de erori de cuvinte, dar Massively Multilingual Speech acoperă de 11 ori mai multe limbi.”

Meta avertizează că noile sale modele nu sunt perfecte. „De exemplu, există un anumit risc ca modelul de vorbire în text să traducă incorect cuvinte sau expresii individuale”, scrie compania. „În funcție de rezultat, acest lucru poate duce la un limbaj ofensator și/sau inexact. Continuăm să credem că colaborarea în cadrul comunității AI este esențială pentru dezvoltarea responsabilă a tehnologiilor AI.”

meta

Acum că Meta a lansat MMS pentru cercetarea open-source, speră să inverseze tendința de reducere a numărului de limbi din lume la 100 sau mai puțin, majoritatea fiind susținute de tehnologii majore. Ea vede o lume în care tehnologia de asistență, TTS și chiar tehnologiile VR/AR permit tuturor să vorbească și să învețe în limba lor maternă. Se spune: „Ne imaginăm o lume în care tehnologia are efectul opus, încurajând oamenii să-și păstreze limbile în viață, deoarece pot accesa informații și pot folosi tehnologia în timp ce vorbesc limba lor maternă”.

Citeste si:

DzhereloEngadget
Inscrie-te
Notifică despre
oaspete

0 Comentarii
Recenzii încorporate
Vezi toate comentariile
Alte articole
Abonați-vă pentru actualizări
Popular acum