L'IA vocale de Meta reconnaît plus de 4 000 langues parlées

Meta créé un modèle de langage AI qui n'est pas un clone ChatGPT. Le projet Massively Multilingual Speech (MMS) de l'entreprise peut reconnaître plus de 4 000 langues parlées et reproduire la parole (text-to-speech) dans plus de 1 100 langues. Comme la plupart de ses projets d'IA annoncés publiquement, Meta rend aujourd'hui le MMS en libre accès pour aider à préserver la diversité linguistique et encourager les chercheurs à la développer. "Aujourd'hui, nous partageons publiquement nos modèles et notre code afin que d'autres membres de la communauté de recherche puissent s'appuyer sur notre travail", a écrit la société. "Grâce à ce travail, nous espérons apporter une petite contribution à la préservation de l'incroyable diversité linguistique du monde."

Les modèles de reconnaissance vocale et de synthèse vocale nécessitent généralement une formation sur des milliers d'heures d'enregistrements audio accompagnés d'étiquettes de transcription. Mais pour les langues qui ne sont pas largement parlées dans les pays industrialisés - dont beaucoup risquent de disparaître dans les décennies à venir - "ces données n'existent tout simplement pas", déclare Meta.

Meta a adopté une approche non conventionnelle de la collecte de données audio : écouter des enregistrements audio de textes religieux traduits. "Nous nous sommes tournés vers des textes religieux, comme la Bible, qui ont été traduits dans de nombreuses langues différentes et dont les traductions ont été largement étudiées pour la recherche de traduction basée sur le texte", a déclaré la société. "Ces traductions ont des enregistrements audio accessibles au public de personnes lisant ces textes dans différentes langues." En incluant des entrées non marquées de la Bible et de textes similaires, les chercheurs de Meta ont augmenté le nombre de langues disponibles pour le modèle à plus de 4 000.

"Bien que le contenu des enregistrements audio soit religieux, notre analyse montre que cela n'affecte pas la production du modèle d'un discours plus religieux", écrit Meta. "Nous pensons que c'est parce que nous utilisons une approche de classification temporelle connexionniste (CTC), qui est beaucoup plus limitée par rapport aux grands modèles de langage (LLM) ou aux modèles de séquence pour la reconnaissance vocale." De plus, malgré le fait que la plupart des textes religieux étaient lus par des hommes, cela n'a pas conduit à un parti pris masculin - le système reconnaissait aussi bien les voix féminines que masculines.

Après avoir formé un modèle d'alignement pour rendre les données plus utilisables, Meta a utilisé wav2vec 2.0, le modèle « d'apprentissage de représentation linguistique auto-supervisé » de la société qui peut apprendre sur des données non étiquetées. La combinaison de sources de données non traditionnelles et d'un modèle de parole autodirigé a donné des résultats impressionnants. "Nos résultats montrent que les modèles de diffusion multilingue de masse fonctionnent bien par rapport aux modèles existants et couvrent 10 fois plus de langues." En particulier, Meta a comparé MMS avec Whisper d'OpenAI, et les résultats ont dépassé les attentes. "Nous avons constaté que les modèles formés sur les données de la parole massivement multilingue ont la moitié du pourcentage d'erreurs de mots, mais la parole massivement multilingue couvre 11 fois plus de langues."

Meta prévient que ses nouveaux modèles ne sont pas parfaits. "Par exemple, il existe un risque que le modèle de synthèse vocale traduise de manière incorrecte des mots ou des phrases individuels", écrit la société. « Selon le résultat, cela peut conduire à un langage offensant et/ou inexact. Nous continuons de croire que la collaboration au sein de la communauté de l'IA est essentielle au développement responsable des technologies de l'IA. »

Maintenant que Meta a publié le MMS pour la recherche open source, il espère inverser la tendance à réduire le nombre de langues dans le monde à 100 ou moins, dont la plupart sont prises en charge par les principales technologies. Elle voit un monde où les technologies d'assistance, TTS et même les technologies VR/AR permettent à chacun de parler et d'apprendre dans sa langue maternelle. Il dit: "Nous envisageons un monde où la technologie a l'effet inverse, encourageant les gens à garder leurs langues vivantes car ils peuvent accéder à l'information et utiliser la technologie tout en parlant leur langue maternelle."

Lire aussi :

sourceEngadget

S'inscrire

0 Commentaires

Avis intégrés

Voir tous les commentaires

Autres articles

L'IA vocale de Meta reconnaît plus de 4 000 langues parlées

Commentaires récents