Stability AI, яка розробила технологію штучного інтелекту Stable Diffusion для перетворення тексту на зображення, оголосила про публічний реліз нейромережі Stable Audio для генерації коротких аудіокліпів на основі текстових описів. Stable Audio базується на тих самих основних методах роботи ШІ, які використовуються Stable Diffusion при створенні зображень.
“Stability AI найвідоміша своєю роботою із зображеннями, але тепер ми запускаємо наш перший продукт для створення музики та аудіо, який називається Stable Audio, – розповів віцепрезидент зі звуку в Stability AI Ед Ньютон-Рекс. – Ідея дуже проста: ви описуєте музику або аудіо, які хочете почути, в тексті, і наша система генерує їх для вас”.
Ед не новачок у світі комп’ютерної музики: 2011 року він створив стартап Jukedeck, який у 2019 був куплений TikTok. Однак технологія, що лежить в основі Stable Audio, сягає корінням не в Jukedeck, а у внутрішню дослідницьку студію Stability AI зі створення музики під назвою Harmonai, створену Заком Евансом. Еванс пояснив, що текстова модель використовує техніку, відому як попередня підготовка аудіоконтрастної мови (CLAP). Модель Stable Audio має близько 1,2 млрд параметрів, що приблизно відповідає вихідній версії Stable Diffusion для генерації зображень.
Можливість генерувати базові звукові доріжки за допомогою технології не є чимось новим. У минулому використовувався метод так званої символьної генерації, яка зазвичай використовується при роботі з форматом MIDI (цифровий інтерфейс музичних інструментів). Генеративні можливості ШІ Stable Audio дають змогу користувачам створювати нову музику, що виходить за рамки повторюваних послідовностей нот, характерних для MIDI і символьної генерації.
Stable Audio працює безпосередньо з необробленими аудіосемплами для забезпечення вищої якості виведення. Модель навчалася на більш ніж 800 000 фрагментах ліцензійної музики з аудіотеки AudioSparks. “Одне з найскладніших завдань при створенні текстових моделей – отримання аудіоданих, які не тільки є високоякісним звуком, а й мають відповідні метадані”, – пояснив Еванс.
Одне з поширених завдань, які користувачі ставлять перед моделями генерації зображень – стилізація під конкретного художника. Однак у випадку Stable Audio користувачі не зможуть звернутися до ШІ з подібним запитом – на думку авторів Stable Audio, більшість музикантів радше захочуть проявити більше творчості.
Модель Stable Audio буде доступна як безкоштовно, так і за тарифним планом Pro за $12 на місяць. Безкоштовна версія дає змогу створювати 20 треків на місяць тривалістю до 20 секунд, а версія Pro збільшує кількість треків до 500, а час їхнього звучання до 90 секунд. Ще остання дозволяє комерційне використання творів. У рамках запуску Stable Audio Stability AI також випустить посібник із текстових підказок.
Читайте також: