Microsoft представила новий проєкт у сфері штучного інтелекту, який здатен перетворювати текст у повноцінний аудіоподкаст тривалістю до 90 хв англійською або мандаринською мовами. Ця технологія доступна для будь-якого користувача, який бажає її випробувати.
Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.
На відміну від вже знайомих рішень Microsoft, таких як Copilot, який інтегрується в різні програми та сервіси, VibeVoice є окремим проєктом із відкритим кодом, орієнтованим виключно на генерацію мовлення з тексту. Ви просто вводите текстову інформацію, модель обробляє її та видає аудіофайл із голосом, що звучить дуже природно, схоже на людський.
За словами керівника Microsoft Windows, наступна версія операційної системи суттєво змінить уявлення користувачів про комп’ютерні можливості. Що ж до VibeVoice, ця платформа дозволяє створювати довге, виразне аудіо з підтримкою кількох мовців, вирішуючи традиційні проблеми систем перетворення тексту на мову (TTS), такі як масштабованість, узгодженість голосів і природність чергування мовців.

Модель здатна генерувати мовлення тривалістю до 90 хв з участю до чотирьох різних ораторів, що значно перевищує обмеження багатьох попередніх TTS-моделей, які зазвичай обмежувалися одним або двома голосами. Що особливо приємно, ця технологія доступна для всіх охочих: її можна встановити локально на власному комп’ютері або скористатися онлайн-версією, хоча для обробки аудіофайлу в останньому випадку доведеться трохи почекати в черзі.
Існують декілька версій VibeVoice, дві з яких вже доступні для тестування. Перша, з 1,5 млрд параметрів, здатна створювати аудіо до 90 хв із контекстним вікном 64k. Друга, потужніша модель із 7 млрд параметрів, має менше контекстне вікно (32k) і дозволяє генерувати до 45 хв аудіо, проте якість звучання завдяки більшій кількості параметрів, ймовірно, вища. Крім того, планується легка версія з 0,5 млрд параметрів для створення аудіо в реальному часі.
Якщо ви запускаєте моделі локально, використання меншої версії потребує близько 7 ГБ відеопам’яті, а більшої – до 18 ГБ. Завдяки цьому менш потужні версії можна запускати на багатьох графічних процесорах без необхідності встановлювати громіздкі AI-системи.

На цю мить VibeVoice навчений лише англійській та китайській мовам, однак у майбутньому планується додати підтримку інших мов. Модель може створювати розмови між кількома голосами, і навіть спробувати співати, хоча зараз результати виглядають кумедно. Поточні голоси звучать досить природно, хоча все ще помітно, що це генерація штучного інтелекту. Надалі розробники планують додати функцію клонування голосів.
VibeVoice дозволяє передавати емоції та створювати аудіо різними мовами, обмеженими поки що англійською та мандаринською. Верхня межа можливостей – це 90-хвилинний подкаст із чотирма різними AI-ораторами. Попри те, що технологія часто асоціюється зі створенням «штучних подкастів» чи озвучок для відео, вона має ширший спектр застосувань, зокрема у сфері доступності для людей із вадами зору чи проблемами слуху.
Коли версія для потокового аудіо стане доступною, VibeVoice може стати корисним інструментом для чат-ботів і інших інтерактивних застосунків без потреби покладатися на віддалені сервери.
Читайте також:
- Microsoft припиняє підтримку Windows 10: Чи є життя після смерті?
- Система керування базами даних DocumentDB від Microsoft стала частиною Linux Foundation
