OpenAI пропонує обмежений доступ до розробленої нею платформи для перетворення тексту в голос під назвою Voice Engine, яка може створювати синтетичний голос на основі 15-секундного кліпу чийогось голосу. Голос, створений штучним інтелектом, може зачитувати текстові підказки по команді тією ж мовою, що і диктор, або кількома іншими мовами. “Ці невеликі розгортання допомагають формувати наш підхід, гарантії та роздуми про те, як Voice Engine може бути використаний на благо в різних галузях”, – йдеться в повідомленні OpenAI в блозі.
Серед компаній, які отримали доступ, – компанія Age of Learning, що займається освітніми технологіями, платформа візуального сторітелінгу HeyGen, розробник програмного забезпечення для охорони здоров’я Dimagi, творець комунікаційних застосунків зі штучним інтелектом Livox і система охорони здоров’я Lifespan.
OpenAI заявила, що почала розробляти Voice Engine наприкінці 2022 року і що технологія вже забезпечує роботу попередньо встановлених голосів для API перетворення тексту в мовлення та функції читання вголос у ChatGPT. В інтерв’ю TechCrunch Джефф Гарріс, член команди розробників Voice Engine в OpenAI, сказав, що модель навчалася на “поєднанні ліцензійних і загальнодоступних даних”. В OpenAI повідомили виданню, що модель буде доступна лише близько 10 розробникам.
Перетворення ШІ з тексту в аудіо – це область генеративного ШІ, яка продовжує розвиватися. У той час як більшість зосереджується на інструментальних або природних звуках, менша кількість зосереджується на генерації голосу, частково через питання, про які згадує OpenAI. Серед них такі компанії, як Podcastle та ElevenLabs, які надають технології та інструменти для клонування голосу ШІ, які Vergecast досліджував минулого року.
Водночас уряд США намагається обмежити неетичне використання голосових технологій ШІ. Минулого місяця Федеральна комісія зі зв’язку заборонила роботизовані дзвінки з використанням ШІ-голосів після того, як люди отримали спам-дзвінки від клонованого ШІ-голосу президента Джо Байдена.
За даними OpenAI, її партнери погодилися дотримуватися політики використання, яка передбачає, що вони не використовуватимуть Voice Generation для того, щоб видавати себе за людей або організації без їхньої згоди. Вона також вимагає від партнерів отримати “явну та інформовану згоду” оригінального мовця, не створювати способів для окремих користувачів створювати власні голоси та повідомляти слухачам, що голоси згенеровані штучним інтелектом. OpenAI також додала водяні знаки до аудіокліпів, щоб відстежувати їхнє походження та активно контролювати використання аудіо.
OpenAI запропонувала кілька кроків, які, на її думку, можуть обмежити ризики, пов’язані з подібними інструментами, зокрема поступову відмову від голосової автентифікації для доступу до банківських рахунків, політику захисту використання людських голосів у ШІ, підвищення рівня обізнаності щодо підробок ШІ та розробку систем відстеження контенту, створеного ШІ.
Читайте також:
– Як звуть твого собаку?