Root NationNoticiasLa IA de voz de Meta reconoce más de 4000 idiomas hablados

La IA de voz de Meta reconoce más de 4000 idiomas hablados

-

Meta ha creado un modelo de lenguaje de IA que no es un clon de ChatGPT. El proyecto Massively Multilingual Speech (MMS) de la compañía puede reconocer más de 4000 idiomas hablados y reproducir el habla (texto a voz) en más de 1100 idiomas. Como la mayoría de sus proyectos de IA anunciados públicamente, Meta hoy hace que MMS sea de acceso abierto para ayudar a preservar la diversidad lingüística y alentar a los investigadores a desarrollarla. “Hoy estamos compartiendo públicamente nuestros modelos y código para que otros miembros de la comunidad de investigación puedan desarrollar nuestro trabajo”, escribió la compañía. “A través de este trabajo, esperamos hacer una pequeña contribución para preservar la increíble diversidad lingüística del mundo”.

Meta

- Advertisement -

Los modelos de reconocimiento de voz y texto a voz generalmente requieren capacitación en miles de horas de grabaciones de audio con etiquetas de transcripción adjuntas. Pero para los idiomas que no se hablan ampliamente en los países industrializados, muchos de los cuales están en riesgo de extinción en las próximas décadas, “esos datos simplemente no existen”, dice Meta.

Meta adoptó un enfoque poco convencional para la recopilación de datos de audio: escuchar grabaciones de audio de textos religiosos traducidos. “Recurrimos a textos religiosos, como la Biblia, que han sido traducidos a muchos idiomas diferentes y cuyas traducciones han sido ampliamente estudiadas para la investigación de traducción basada en texto”, dijo la compañía. “Estas traducciones tienen grabaciones de audio disponibles públicamente de personas que leen estos textos en diferentes idiomas”. Al incluir entradas sin marcar de la Biblia y textos similares, los investigadores de Meta aumentaron la cantidad de idiomas disponibles para el modelo a más de 4,000.

“Aunque el contenido de las grabaciones de audio es religioso, nuestro análisis muestra que esto no influye en el modelo para producir un discurso más religioso”, escribe Meta. “Creemos que esto se debe a que usamos un enfoque de clasificación temporal conexionista (CTC), que es es mucho más limitado en comparación con los modelos de lenguaje grande (LLM) o los modelos de secuencia para el reconocimiento de voz”. Además, aunque la mayoría de los textos religiosos fueron leídos por hombres, esto no condujo a un sesgo masculino: el sistema reconoció tanto a hombres como a mujeres. textos igualmente bien voces

- Advertisement -

Después de entrenar un modelo de alineación para hacer que los datos fueran más utilizables, Meta usó wav2vec 2.0, el modelo de “aprendizaje de representación del lenguaje autosupervisado” de la compañía que puede aprender sobre datos no etiquetados. La combinación de fuentes de datos no tradicionales y un modelo de voz autodirigido condujo a resultados impresionantes. “Nuestros resultados muestran que los modelos de transmisión masiva multilingüe funcionan bien en comparación con los modelos existentes y cubren 10 veces más idiomas”. En particular, Meta comparó MMS con Whisper de OpenAI y los resultados superaron las expectativas. “Descubrimos que los modelos entrenados con datos de Massively Multilingual Speech tienen la mitad del porcentaje de errores de palabras, pero Massively Multilingual Speech cubre 11 veces más idiomas”.

Meta advierte que sus nuevos modelos no son perfectos. “Por ejemplo, existe cierto riesgo de que el modelo de voz a texto pueda traducir incorrectamente palabras o frases individuales”, escribe la compañía. “Dependiendo del resultado, esto puede resultar en un lenguaje ofensivo y/o inexacto. Seguimos creyendo que la colaboración dentro de la comunidad de IA es fundamental para el desarrollo responsable de las tecnologías de IA”.

Meta

Ahora que Meta lanzó MMS para la investigación de código abierto, espera revertir la tendencia de reducir la cantidad de idiomas en el mundo a 100 o menos, la mayoría de los cuales son compatibles con las principales tecnologías. Ella ve un mundo donde la tecnología de asistencia, TTS e incluso las tecnologías VR / AR permiten que todos hablen y aprendan en su idioma nativo. Dijo: “Visualizamos un mundo donde la tecnología tiene el efecto opuesto, alentando a las personas a mantener vivos sus idiomas porque pueden acceder a la información y usar la tecnología mientras hablan su idioma nativo”.

Aquí te dejamos una lista de noticias que de seguro vas a querer leer:

FuenteEngadget
- Advertisement -
Subscribe
Notify of
guest

0 Comments
Inline Feedbacks
View all comments