Η τεχνητή νοημοσύνη ομιλίας του Meta αναγνωρίζει πάνω από 4 ομιλούμενες γλώσσες

Meta δημιούργησε ένα μοντέλο γλώσσας AI που δεν είναι κλώνος ChatGPT. Το έργο Massively Multilingual Speech (MMS) της εταιρείας μπορεί να αναγνωρίσει περισσότερες από 4 ομιλούμενες γλώσσες και να αναπαράγει ομιλία (text-to-speech) σε περισσότερες από 000 γλώσσες. Όπως τα περισσότερα από τα δημόσια ανακοινωθέντα έργα τεχνητής νοημοσύνης, η Meta κάνει σήμερα ανοιχτή πρόσβαση στο MMS για να βοηθήσει στη διατήρηση της γλωσσικής ποικιλομορφίας και να ενθαρρύνει τους ερευνητές να το αναπτύξουν. «Σήμερα μοιραζόμαστε δημόσια τα μοντέλα και τον κώδικά μας, ώστε άλλα μέλη της ερευνητικής κοινότητας να μπορούν να αξιοποιήσουν τη δουλειά μας», έγραψε η εταιρεία. «Χάρη σε αυτό το έργο, ελπίζουμε να κάνουμε μια μικρή συμβολή στη διατήρηση της απίστευτης γλωσσικής ποικιλομορφίας του κόσμου».

Η αναγνώριση ομιλίας και τα μοντέλα μετατροπής κειμένου σε ομιλία συνήθως απαιτούν εκπαίδευση σε χιλιάδες ώρες ηχογραφήσεων με συνοδευτικές ετικέτες μεταγραφής. Αλλά για τις γλώσσες που δεν ομιλούνται ευρέως στις βιομηχανικές χώρες – πολλές από τις οποίες κινδυνεύουν να εξαφανιστούν τις επόμενες δεκαετίες – «αυτά τα δεδομένα απλά δεν υπάρχουν», λέει ο Meta.

Ο Μέτα ακολούθησε μια αντισυμβατική προσέγγιση στη συλλογή δεδομένων ήχου: ακούγοντας ηχογραφήσεις μεταφρασμένων θρησκευτικών κειμένων. «Στράφηκαμε σε θρησκευτικά κείμενα, όπως η Βίβλος, τα οποία έχουν μεταφραστεί σε πολλές διαφορετικές γλώσσες και οι μεταφράσεις των οποίων έχουν μελετηθεί ευρέως για έρευνα μετάφρασης βάσει κειμένου», ανέφερε η εταιρεία. "Αυτές οι μεταφράσεις έχουν δημοσίως διαθέσιμες ηχογραφήσεις ατόμων που διαβάζουν αυτά τα κείμενα σε διαφορετικές γλώσσες." Συμπεριλαμβάνοντας καταχωρήσεις χωρίς επισήμανση από τη Βίβλο και παρόμοια κείμενα, οι ερευνητές του Meta αύξησαν τον αριθμό των γλωσσών που ήταν διαθέσιμες στο μοντέλο σε πάνω από 4.

«Αν και το περιεχόμενο των ηχογραφήσεων είναι θρησκευτικό, η ανάλυσή μας δείχνει ότι αυτό δεν επηρεάζει την παραγωγή πιο θρησκευτικής γλώσσας από το μοντέλο», γράφει ο Meta. "Πιστεύουμε ότι αυτό συμβαίνει επειδή χρησιμοποιούμε μια προσέγγιση χρονικής ταξινόμησης (CTC), η οποία είναι πολύ πιο περιορισμένη σε σύγκριση με τα μεγάλα γλωσσικά μοντέλα (LLM) ή τα μοντέλα ακολουθίας για την αναγνώριση ομιλίας." Επίσης, παρά το γεγονός ότι τα περισσότερα από τα θρησκευτικά κείμενα διαβάζονταν από άνδρες, αυτό δεν οδήγησε σε ανδρική προκατάληψη – το σύστημα αναγνώριζε εξίσου καλά και τις γυναικείες και τις ανδρικές φωνές.

Αφού εκπαίδευσε ένα μοντέλο ευθυγράμμισης για να κάνει τα δεδομένα πιο χρηστικά, η Meta χρησιμοποίησε το wav2vec 2.0, το μοντέλο "αυτοεποπτευόμενης εκμάθησης αναπαράστασης γλώσσας" της εταιρείας που μπορεί να μάθει σε δεδομένα χωρίς ετικέτα. Ο συνδυασμός μη παραδοσιακών πηγών δεδομένων και ενός μοντέλου αυτοκατευθυνόμενης ομιλίας οδήγησε σε εντυπωσιακά αποτελέσματα. «Τα αποτελέσματά μας δείχνουν ότι τα μοντέλα μαζικής πολύγλωσσης μετάδοσης έχουν καλή απόδοση σε σύγκριση με τα υπάρχοντα μοντέλα και καλύπτουν 10 φορές περισσότερες γλώσσες». Συγκεκριμένα, η Meta συνέκρινε τα MMS με το Whisper του OpenAI και τα αποτελέσματα ξεπέρασαν τις προσδοκίες. «Διαπιστώσαμε ότι τα μοντέλα που έχουν εκπαιδευτεί σε δεδομένα μαζικής πολύγλωσσης ομιλίας έχουν το μισό ποσοστό σφαλμάτων λέξεων, αλλά το Massively Multilingual Speech καλύπτει 11 φορές περισσότερες γλώσσες».

Η Meta προειδοποιεί ότι τα νέα της μοντέλα δεν είναι τέλεια. «Για παράδειγμα, υπάρχει κάποιος κίνδυνος το μοντέλο ομιλίας σε κείμενο να μεταφράζει εσφαλμένα μεμονωμένες λέξεις ή φράσεις», γράφει η εταιρεία. «Ανάλογα με το αποτέλεσμα, αυτό μπορεί να οδηγήσει σε προσβλητική ή/και ανακριβή γλώσσα. Συνεχίζουμε να πιστεύουμε ότι η συνεργασία εντός της κοινότητας της τεχνητής νοημοσύνης είναι κρίσιμη για την υπεύθυνη ανάπτυξη των τεχνολογιών τεχνητής νοημοσύνης».

Τώρα που η Meta κυκλοφόρησε MMS για έρευνα ανοιχτού κώδικα, ελπίζει να αντιστρέψει την τάση μείωσης του αριθμού γλωσσών στον κόσμο σε 100 ή λιγότερες, οι περισσότερες από τις οποίες υποστηρίζονται από μεγάλες τεχνολογίες. Βλέπει έναν κόσμο όπου η υποστηρικτική τεχνολογία, το TTS, ακόμη και οι τεχνολογίες VR / AR επιτρέπουν σε όλους να μιλούν και να μαθαίνουν στη μητρική τους γλώσσα. Λέει: «Οραματιζόμαστε έναν κόσμο όπου η τεχνολογία έχει το αντίθετο αποτέλεσμα, ενθαρρύνοντας τους ανθρώπους να διατηρήσουν τις γλώσσες τους ζωντανές επειδή μπορούν να έχουν πρόσβαση στην πληροφορία και να χρησιμοποιούν την τεχνολογία ενώ μιλούν τη μητρική τους γλώσσα».

Διαβάστε επίσης:

ΠηγήEngadget

Εγγραφείτε

0 Σχόλια

Ενσωματωμένες κριτικές

Δείτε όλα τα σχόλια

Άλλα άρθρα

Η τεχνητή νοημοσύνη ομιλίας του Meta αναγνωρίζει πάνω από 4 ομιλούμενες γλώσσες

Πρόσφατα σχόλια