AI baru Microsoft bisa meniru suara siapa saja

Pada hari Kamis, peneliti Microsoft mengumumkan model kecerdasan buatan (AI) baru yang disebut VALL-E yang dapat secara akurat meniru suara manusia ketika diberikan sampel audio berdurasi tiga detik. Setelah mempelajari suara tertentu, VALL-E dapat mensintesis audio orang tersebut mengatakan apa pun, sekaligus menjaga nada emosional pembicara.

Penulisnya menyarankan bahwa VALL-E dapat digunakan untuk teks-ke-ucapan berkualitas tinggi, pengeditan ucapan, di mana rekaman seseorang dapat diedit dan diubah dari transkripsi teks (membuat mereka mengatakan hal-hal yang awalnya tidak mereka katakan), dan untuk membuat konten audio yang digabungkan dengan model AI generatif lainnya seperti GPT-3.

Microsoft AI VALL-E

Microsoft menyebut VALL-E sebagai "Model Bahasa Codec Neural", dan didasarkan pada teknologi bernama EnCodec yang diumumkan Meta pada Oktober 2022. Tidak seperti metode text-to-speech lainnya, yang biasanya mensintesis ucapan dengan memanipulasi bentuk gelombang, VALL-E menghasilkan audio terpisah kode codec dari teks dan perintah akustik. Ini pada dasarnya menganalisis seperti apa suara seseorang, memecah informasi tersebut menjadi komponen-komponen terpisah (disebut "tokens") berkat EnCodec, dan menggunakan data pelatihan untuk mencocokkan apa yang "diketahui" tentang seperti apa suara itu jika ia mengucapkan frasa lain di luar dari sampel tiga detik.

Microsoft melatih kemampuan sintesis ucapan VALL-E pada perpustakaan audio yang disusun oleh Meta yang disebut LibriLight. Ini berisi 60 jam siaran berbahasa Inggris dari lebih dari 7 penyiar, sebagian besar diambil dari buku audio LibriVox yang tersedia untuk umum.

Selain menjaga timbre suara dan nada emosional penyiar, VALL-E juga dapat mensimulasikan "lingkungan akustik" dari sampel audio. Misalnya, jika sampel diperoleh dari percakapan telepon, keluaran audio yang disintesis akan mensimulasikan sifat akustik dan frekuensi percakapan telepon. Juga sampel Microsoft menunjukkan bahwa VALL-E dapat menghasilkan variasi timbre vokal.

Microsoft AI VALL-E

Mungkin karena kemampuan VALL-E yang berpotensi memfasilitasi penipuan dan penipuan, Microsoft belum menyediakan kode VALL-E untuk dicoba oleh orang lain, jadi kami tidak dapat menguji kemampuannya. Para peneliti tampaknya menyadari potensi dampak buruk teknologi ini terhadap masyarakat. Di akhir artikel, mereka menulis:

“Karena VALL-E dapat menyintesis ucapan yang menjaga identitas pembicara, ini dapat membawa potensi risiko penyalahgunaan model, seperti memalsukan identifikasi suara atau meniru identitas pembicara tertentu. Untuk mengurangi risiko tersebut, model pengenalan akan dibuat untuk membedakan apakah klip audio disintesis menggunakan VALL-E."

Anda dapat membantu Ukraina melawan penjajah Rusia. Cara terbaik untuk melakukannya adalah dengan menyumbangkan dana ke Angkatan Bersenjata Ukraina melalui selamatkan hidup atau melalui halaman resmi NBU.

Baca juga:

Jereloarstechnica.dll

Daftar

0 komentar

Ulasan Tertanam

Lihat semua komentar

Artikel lainnya

AI baru Microsoft meniru suara siapa pun dari sampel audio 3 detik

Komentar terbaru