Νέο AI Microsoft μπορεί να μιμηθεί τη φωνή οποιουδήποτε ατόμου

Την Πέμπτη οι ερευνητές Microsoft ανακοίνωσε ένα νέο μοντέλο τεχνητής νοημοσύνης (AI) που ονομάζεται VALL-E που μπορεί να μιμηθεί με ακρίβεια μια ανθρώπινη φωνή όταν του δοθεί ένα δείγμα ήχου τριών δευτερολέπτων. Μόλις μάθει μια συγκεκριμένη φωνή, το VALL-E μπορεί να συνθέσει τον ήχο αυτού του ατόμου που λέει οτιδήποτε, διατηρώντας παράλληλα τον συναισθηματικό τόνο του ομιλητή.

Οι συγγραφείς του προτείνουν ότι το VALL-E μπορεί να χρησιμοποιηθεί για επεξεργασία κειμένου σε ομιλία υψηλής ποιότητας, επεξεργασία ομιλίας, όπου η ηχογράφηση ενός ατόμου μπορεί να επεξεργαστεί και να αλλάξει από μια μεταγραφή κειμένου (κάνοντάς τον να πει πράγματα που δεν έλεγε αρχικά) και για τη δημιουργία περιεχομένου ήχου σε συνδυασμό με άλλα μοντέλα παραγωγής τεχνητής νοημοσύνης όπως π.χ GPT-3.

Microsoft AI VALL-E

Microsoft αποκαλεί το VALL-E "Μοντέλο Γλώσσας Νευρωνικού Κωδικοποιητή" και βασίζεται σε μια τεχνολογία που ονομάζεται EnCodec που ανακοίνωσε η Meta τον Οκτώβριο του 2022. Σε αντίθεση με άλλες μεθόδους μετατροπής κειμένου σε ομιλία, οι οποίες συνήθως συνθέτουν ομιλία με το χειρισμό κυματομορφών, το VALL-E δημιουργεί διακριτό ήχο κωδικοποιητές από κείμενο και ακουστικές προτροπές. Βασικά αναλύει πώς ακούγεται ένα άτομο, αναλύει αυτές τις πληροφορίες σε διακριτά στοιχεία (που ονομάζονται "tokens") χάρη στο EnCodec και χρησιμοποιεί δεδομένα εκπαίδευσης για να ταιριάζει με αυτό που "γνωρίζει" σχετικά με το πώς θα ακουγόταν αυτή η φωνή αν έλεγε άλλες φράσεις έξω του δείγματος των τριών δευτερολέπτων.

Microsoft εκπαίδευσε τις δυνατότητες σύνθεσης ομιλίας του VALL-E σε μια βιβλιοθήκη ήχου που συντάχθηκε από τη Meta που ονομάζεται LibriLight. Περιέχει 60 ώρες αγγλόφωνων εκπομπών από περισσότερους από 7 εκφωνητές, κυρίως από δημόσια διαθέσιμα ηχητικά βιβλία LibriVox.

Εκτός από τη διατήρηση της φωνητικής χροιάς και του συναισθηματικού τόνου του εκφωνητή, το VALL-E μπορεί επίσης να προσομοιώσει το "ακουστικό περιβάλλον" του δείγματος ήχου. Για παράδειγμα, εάν το δείγμα ελήφθη από μια τηλεφωνική συνομιλία, η συνθετική έξοδος ήχου θα προσομοιώσει τις ιδιότητες ακουστικής και συχνότητας της τηλεφωνικής συνομιλίας. Επίσης δείγματα Microsoft αποδεικνύουν ότι το VALL-E μπορεί να δημιουργήσει παραλλαγές φωνητικής χροιάς.

Microsoft AI VALL-E

Ίσως λόγω της ικανότητας του VALL-E να διευκολύνει δυνητικά την απάτη και την εξαπάτηση, Microsoft δεν έχει παράσχει τον κωδικό VALL-E για να πειραματιστούν άλλοι, επομένως δεν θα μπορούμε να δοκιμάσουμε τις δυνατότητές του. Οι ερευνητές φαίνεται να γνωρίζουν την πιθανή κοινωνική βλάβη που θα μπορούσε να επιφέρει αυτή η τεχνολογία. Στο τέλος του άρθρου γράφουν:

«Επειδή το VALL-E μπορεί να συνθέσει ομιλία που διατηρεί την ταυτότητα του ομιλητή, μπορεί να εγκυμονεί πιθανούς κινδύνους κατάχρησης μοντέλου, όπως πλαστογράφηση αναγνώρισης φωνής ή πλαστοπροσωπία ενός συγκεκριμένου ομιλητή. Για τη μείωση τέτοιων κινδύνων, θα κατασκευαστεί ένα μοντέλο αναγνώρισης για να διακρίνει εάν ένα ηχητικό κλιπ συντέθηκε χρησιμοποιώντας VALL-E."

Μπορείτε να βοηθήσετε την Ουκρανία να πολεμήσει ενάντια στους Ρώσους εισβολείς. Ο καλύτερος τρόπος για να γίνει αυτό είναι να δωρίσετε χρήματα στις Ένοπλες Δυνάμεις της Ουκρανίας μέσω Savelife ή μέσω της επίσημης σελίδας NBU.

Διαβάστε επίσης:

Πηγήαρστεχνικα

Εγγραφείτε

0 Σχόλια

Ενσωματωμένες κριτικές

Δείτε όλα τα σχόλια

Άλλα άρθρα

Νέο AI Microsoft μιμείται τη φωνή οποιουδήποτε ατόμου από ένα δείγμα ήχου 3 δευτερολέπτων

Πρόσφατα σχόλια