L'intelligenza artificiale vocale di Meta riconosce oltre 4 lingue parlate

Meta ha creato un modello di linguaggio AI che non è un clone di ChatGPT. Il progetto Massively Multilingual Speech (MMS) dell'azienda è in grado di riconoscere più di 4 lingue parlate e riprodurre il parlato (sintesi vocale) in più di 000 lingue. Come la maggior parte dei suoi progetti di intelligenza artificiale annunciati pubblicamente, Meta oggi rende l'MMS un accesso aperto per aiutare a preservare la diversità linguistica e incoraggiare i ricercatori a svilupparla. "Oggi condividiamo pubblicamente i nostri modelli e il nostro codice in modo che altri membri della comunità di ricerca possano basarsi sul nostro lavoro", ha scritto la società. "Grazie a questo lavoro, speriamo di dare un piccolo contributo alla conservazione dell'incredibile diversità linguistica del mondo".

I modelli di riconoscimento vocale e di sintesi vocale in genere richiedono formazione su migliaia di ore di registrazioni audio con etichette di trascrizione associate. Ma per le lingue poco parlate nei paesi industrializzati – molte delle quali sono a rischio di estinzione nei prossimi decenni – “questi dati semplicemente non esistono”, dice Meta.

Meta ha adottato un approccio non convenzionale alla raccolta di dati audio: ascoltare registrazioni audio di testi religiosi tradotti. "Ci siamo rivolti a testi religiosi, come la Bibbia, che sono stati tradotti in molte lingue diverse e le cui traduzioni sono state ampiamente studiate per la ricerca sulla traduzione testuale", ha affermato la società. "Queste traduzioni hanno registrazioni audio pubblicamente disponibili di persone che leggono questi testi in diverse lingue". Includendo voci non contrassegnate dalla Bibbia e testi simili, i ricercatori di Meta hanno aumentato il numero di lingue disponibili per il modello a oltre 4.

"Sebbene il contenuto delle registrazioni audio sia religioso, la nostra analisi mostra che ciò non influisce sulla produzione del modello di discorsi più religiosi", scrive Meta. "Riteniamo che ciò sia dovuto al fatto che utilizziamo un approccio di classificazione temporale connessionista (CTC), che è molto più limitato rispetto ai modelli di linguaggio di grandi dimensioni (LLM) o ai modelli di sequenza per il riconoscimento vocale". Inoltre, nonostante il fatto che la maggior parte dei testi religiosi fosse letta da uomini, ciò non portava a un pregiudizio maschile: il sistema riconosceva ugualmente bene sia le voci femminili che quelle maschili.

Dopo aver addestrato un modello di allineamento per rendere i dati più utilizzabili, Meta ha utilizzato wav2vec 2.0, il modello di "apprendimento della rappresentazione linguistica auto-supervisionato" dell'azienda che può apprendere su dati non etichettati. La combinazione di fonti di dati non tradizionali e un modello di discorso autodiretto ha portato a risultati impressionanti. "I nostri risultati mostrano che i modelli di trasmissione multilingue di massa funzionano bene rispetto ai modelli esistenti e coprono un numero di lingue 10 volte superiore". In particolare, Meta ha confrontato MMS con Whisper di OpenAI e i risultati hanno superato le aspettative. "Abbiamo scoperto che i modelli addestrati sui dati Massively Multilingual Speech hanno la metà della percentuale di errori di parole, ma Massively Multilingual Speech copre 11 volte più lingue."

Meta avverte che i suoi nuovi modelli non sono perfetti. "Ad esempio, esiste il rischio che il modello di sintesi vocale possa tradurre in modo errato singole parole o frasi", scrive la società. “A seconda del risultato, ciò può portare a un linguaggio offensivo e/o impreciso. Continuiamo a credere che la collaborazione all'interno della comunità IA sia fondamentale per lo sviluppo responsabile delle tecnologie IA”.

Ora che Meta ha rilasciato MMS per la ricerca open source, spera di invertire la tendenza di ridurre il numero di lingue nel mondo a 100 o meno, la maggior parte delle quali supportate dalle principali tecnologie. Vede un mondo in cui la tecnologia assistiva, la sintesi vocale e persino le tecnologie VR/AR consentono a tutti di parlare e apprendere nella propria lingua madre. Dice: "Immaginiamo un mondo in cui la tecnologia abbia l'effetto opposto, incoraggiando le persone a mantenere vive le loro lingue perché possono accedere alle informazioni e utilizzare la tecnologia mentre parlano la loro lingua madre".

Leggi anche:

fonteEngadget

Iscrizione

0 Commenti

Recensioni incorporate

Visualizza tutti i commenti

Altri articoli

L'intelligenza artificiale vocale di Meta riconosce oltre 4 lingue parlate

Commenti recenti