Компанія Meta представила новий інструмент під назвою Voicebox, який, як стверджують її представники, є проривом у створенні мовлення на основі ШІ. Однак компанія поки не випускатиме його на широкий загал, оскільки це може мати катастрофічні наслідки.
Наразі Voicebox здатен створювати аудіоролики шістьма європейськими мовами, і це перша, згідно з повідомленням Meta, у своєму роді модель ШІ, здатна виконувати завдання, що виходять за рамки того, для чого вона була “спеціально навчена”. Мета стверджує, що Voicebox значно перевершує конкуруючі ШІ, що генерують мовлення, практично в усіх сферах.
Інструмент може відтворювати досить точні текстові репліки голосу людини, використовуючи зразок аудіофайлу тривалістю всього дві секунди, але це “вміння” може мати величезний руйнівний потенціал. Навіть якщо не брати до уваги хитрощі, які зловмисники роблять з ChatGPT та іншими інструментами ШІ, ця технологія може в буквальному сенсі стати початком війни.
Зрештою, більшість публічних осіб мають безліч аудіозаписів, що гуляють інтернетом. Було б неважко зібрати кілька відеозаписів виступів чинного політичного лідера і за допомогою Voicebox створити вражаюче реалістичну копію його голосу – і використати потім в мерзенних цілях. Тож цілком зрозуміло, чому компанія проявляє обережність.
Звичайно, такі інструменти вже існують, але вони менш переконливі. Вони можуть імітувати манери настільки, що людину можна впізнати, але не настільки добре, щоб будь-хто, у кого є мозок, повірив, що це саме вона. Мета, очевидно, вважає, що її новий інструмент достатньо хороший, щоб обдурити більшість людей. Тому вона не випускає Voicebox для громадськості, а натомість публікує дослідницьку статтю і детально описує інструмент-класифікатор, який може відрізнити мову, згенеровану Voicebox, від справжньої людської мови.
Попри те, що Meta підкреслює “потенціал для зловживань і ненавмисної шкоди” інструмента, важливо не випускати з уваги потенційні переваги, які може принести генерування мовлення ШІ в майбутньому. Voicebox може забезпечити більш натуралістичне мовлення для людей, які є німими або з інших причин не можуть спілкуватися, усуваючи бар’єри для взаємодії, спричинені існуючим перетворенням тексту в мову “голос робота”. Він також може здійснювати переклад у реальному часі, наближаючи нас на крок до “універсального перекладача”, який наразі існує лише в науковій фантастиці.
Є й інші застосування, менші, але не менш корисні. Наприклад, Voicebox можна використовувати для редагування та покращення записаної мови. Якщо ви записали аудіо, але неправильно вимовили слово або вас перервав фоновий шум, Voicebox може ізолювати проблемний сегмент і “перезаписати” фрагмент мови за допомогою вашого голосу. Вражає і зовсім трохи лякає.
Читайте також:
Leave a Reply