Die Sprach-KI von Meta erkennt über 4 gesprochene Sprachen

Meta hat ein KI-Sprachmodell erstellt, das kein ChatGPT-Klon ist. Das Massively Multilingual Speech (MMS)-Projekt des Unternehmens kann mehr als 4 gesprochene Sprachen erkennen und Sprache (Text-to-Speech) in mehr als 000 Sprachen wiedergeben. Wie die meisten seiner öffentlich angekündigten KI-Projekte macht Meta heute MMS offen zugänglich, um zum Erhalt der sprachlichen Vielfalt beizutragen und Forscher zu ermutigen, sie weiterzuentwickeln. „Heute teilen wir unsere Modelle und unseren Code öffentlich, damit andere Mitglieder der Forschungsgemeinschaft auf unserer Arbeit aufbauen können“, schrieb das Unternehmen. „Wir hoffen, mit dieser Arbeit einen kleinen Beitrag zum Erhalt der unglaublichen sprachlichen Vielfalt der Welt leisten zu können.“

Spracherkennungs- und Text-zu-Sprache-Modelle erfordern in der Regel eine Schulung an Tausenden von Stunden Audioaufnahmen mit begleitenden Transkriptionsetiketten. Aber für Sprachen, die in Industrieländern nicht weit verbreitet sind – von denen viele in den kommenden Jahrzehnten vom Aussterben bedroht sind – „existieren diese Daten einfach nicht“, sagt Meta.

Meta verfolgte bei der Audiodatenerfassung einen unkonventionellen Ansatz: das Anhören von Audioaufnahmen übersetzter religiöser Texte. „Wir haben uns religiösen Texten wie der Bibel zugewandt, die in viele verschiedene Sprachen übersetzt wurden und deren Übersetzungen für die textbasierte Übersetzungsforschung umfassend untersucht wurden“, sagte das Unternehmen. „Diese Übersetzungen enthalten öffentlich zugängliche Audioaufnahmen von Menschen, die diese Texte in verschiedenen Sprachen lesen.“ Durch die Einbeziehung unmarkierter Einträge aus der Bibel und ähnlichen Texten erhöhten die Meta-Forscher die Anzahl der dem Modell zur Verfügung stehenden Sprachen auf über 4.

„Obwohl der Inhalt der Audioaufnahmen religiöser Natur ist, zeigt unsere Analyse, dass dies keinen Einfluss auf die Produktion religiöserer Sprache durch das Modell hat“, schreibt Meta. „Wir glauben, dass das daran liegt, dass wir einen Ansatz der konnektionistischen zeitlichen Klassifizierung (CTC) verwenden, der im Vergleich zu großen Sprachmodellen (LLM) oder Sequenzmodellen für die Spracherkennung viel eingeschränkter ist.“ Auch wenn die meisten religiösen Texte von Männern gelesen wurden, führte dies nicht zu einer männlichen Voreingenommenheit – das System erkannte sowohl weibliche als auch männliche Stimmen gleichermaßen gut.

Nach dem Training eines Alignment-Modells, um die Daten besser nutzbar zu machen, verwendete Meta wav2vec 2.0, das „selbstüberwachte Sprachrepräsentationslernmodell“ des Unternehmens, das auf unbeschrifteten Daten lernen kann. Die Kombination aus nicht-traditionellen Datenquellen und einem selbstgesteuerten Sprachmodell führte zu beeindruckenden Ergebnissen. „Unsere Ergebnisse zeigen, dass Modelle der mehrsprachigen Massenausstrahlung im Vergleich zu bestehenden Modellen eine gute Leistung erbringen und zehnmal mehr Sprachen abdecken.“ Insbesondere verglich Meta MMS mit Whisper von OpenAI und die Ergebnisse übertrafen die Erwartungen. „Wir haben herausgefunden, dass Modelle, die auf Massively Multilingual Speech-Daten trainiert wurden, nur halb so viele Wortfehler aufweisen, Massively Multilingual Speech jedoch elfmal mehr Sprachen abdeckt.“

Meta warnt davor, dass seine neuen Modelle nicht perfekt seien. „Beispielsweise besteht ein gewisses Risiko, dass das Speech-to-Text-Modell einzelne Wörter oder Phrasen falsch übersetzt“, schreibt das Unternehmen. „Je nach Ergebnis kann dies zu beleidigender und/oder ungenauer Sprache führen. Wir sind weiterhin davon überzeugt, dass die Zusammenarbeit innerhalb der KI-Community für die verantwortungsvolle Entwicklung von KI-Technologien von entscheidender Bedeutung ist.“

Nachdem Meta nun MMS für die Open-Source-Forschung freigegeben hat, hofft das Unternehmen, den Trend umzukehren, die Zahl der Sprachen auf der Welt auf 100 oder weniger zu reduzieren, von denen die meisten von wichtigen Technologien unterstützt werden. Sie sieht eine Welt, in der unterstützende Technologien, TTS und sogar VR/AR-Technologien es jedem ermöglichen, in seiner Muttersprache zu sprechen und zu lernen. Darin heißt es: „Wir stellen uns eine Welt vor, in der Technologie den gegenteiligen Effekt hat und die Menschen dazu ermutigt, ihre Sprachen am Leben zu erhalten, weil sie auf Informationen zugreifen und Technologie nutzen können, während sie ihre Muttersprache sprechen.“

Lesen Sie auch:

QuelleEngadget

Anmelden

0 Ihre Nachricht

Eingebettete Bewertungen

Alle Kommentare anzeigen

Andere Artikel

Die Sprach-KI von Meta erkennt über 4 gesprochene Sprachen

Letzte Kommentare