Root NationNotíciasnotícias de TIA IA de fala da Meta reconhece mais de 4 idiomas falados

A IA de fala da Meta reconhece mais de 4 idiomas falados

-

Meta criou um modelo de linguagem AI que não é um clone do ChatGPT. O projeto Massively Multilingual Speech (MMS) da empresa pode reconhecer mais de 4 idiomas falados e reproduzir fala (text-to-speech) em mais de 000 idiomas. Como a maioria de seus projetos de IA anunciados publicamente, a Meta hoje torna o MMS de acesso aberto para ajudar a preservar a diversidade linguística e incentivar os pesquisadores a desenvolvê-la. “Hoje estamos compartilhando publicamente nossos modelos e códigos para que outros membros da comunidade de pesquisa possam desenvolver nosso trabalho”, escreveu a empresa. "Graças a este trabalho, esperamos dar uma pequena contribuição para a preservação da incrível diversidade linguística do mundo."

Meta

Os modelos de reconhecimento de fala e conversão de texto em fala geralmente exigem treinamento em milhares de horas de gravações de áudio com rótulos de transcrição que os acompanham. Mas para idiomas que não são amplamente falados em países industrializados – muitos dos quais correm risco de extinção nas próximas décadas – “esse dado simplesmente não existe”, diz Meta.

A Meta adotou uma abordagem não convencional para a coleta de dados de áudio: ouvir gravações de áudio de textos religiosos traduzidos. "Nós nos voltamos para textos religiosos, como a Bíblia, que foram traduzidos para muitos idiomas diferentes e cujas traduções foram amplamente estudadas para pesquisa de tradução baseada em texto", disse a empresa. “Essas traduções têm gravações de áudio disponíveis publicamente de pessoas lendo esses textos em diferentes idiomas”. Ao incluir entradas não marcadas da Bíblia e textos semelhantes, os pesquisadores do Meta aumentaram o número de idiomas disponíveis para o modelo para mais de 4.

“Embora o conteúdo das gravações de áudio seja religioso, nossa análise mostra que isso não afeta a produção de um discurso mais religioso do modelo”, escreve Meta. “Acreditamos que isso ocorre porque usamos uma abordagem de classificação temporal conexionista (CTC), que é muito mais limitada em comparação com modelos de linguagem grandes (LLM) ou modelos de sequência para reconhecimento de fala”. Além disso, apesar do fato de a maioria dos textos religiosos serem lidos por homens, isso não levou a um viés masculino – o sistema reconhecia vozes femininas e masculinas igualmente bem.

Depois de treinar um modelo de alinhamento para tornar os dados mais utilizáveis, a Meta usou o wav2vec 2.0, o modelo de "aprendizado de representação de linguagem auto-supervisionado" da empresa que pode aprender com dados não rotulados. A combinação de fontes de dados não tradicionais e um modelo de fala autodirigida levou a resultados impressionantes. "Nossos resultados mostram que os modelos de transmissão multilíngue em massa funcionam bem em comparação com os modelos existentes e cobrem 10 vezes mais idiomas." Em particular, a Meta comparou o MMS com o Whisper da OpenAI, e os resultados superaram as expectativas. “Descobrimos que os modelos treinados com dados de fala multilíngue massiva têm metade da porcentagem de erros de palavras, mas a fala multilíngue massiva cobre 11 vezes mais idiomas”.

A Meta alerta que seus novos modelos não são perfeitos. "Por exemplo, existe algum risco de que o modelo de fala para texto possa traduzir incorretamente palavras ou frases individuais", escreve a empresa. “Dependendo do resultado, isso pode levar a linguagem ofensiva e/ou imprecisa. Continuamos acreditando que a colaboração dentro da comunidade de IA é fundamental para o desenvolvimento responsável de tecnologias de IA.”

Meta

Agora que a Meta lançou o MMS para pesquisa de código aberto, ela espera reverter a tendência de reduzir o número de idiomas no mundo para 100 ou menos, a maioria dos quais suportada por grandes tecnologias. Ela vê um mundo onde a tecnologia assistiva, TTS e até mesmo as tecnologias VR/AR permitem que todos falem e aprendam em sua língua nativa. Ele diz: "Visualizamos um mundo onde a tecnologia tem o efeito oposto, encorajando as pessoas a manter seus idiomas vivos porque podem acessar informações e usar a tecnologia enquanto falam seu idioma nativo".

Leia também:

Inscrever-se
Notificar sobre
convidado

0 Comentários
Avaliações incorporadas
Ver todos os comentários