Meta представила ШІ-генератор музики AudioCraft з відкритим вихідним кодом, який створює аудіо, повністю ґрунтуючись на текстовому запиті користувача. AudioCraft об’єднує три окремі моделі ШІ: MusicGen призначена для створення музики і навчена на “20 000 годин музики, яка належить Meta або ліцензована спеціально для цієї мети”, AudioGen генерує звуки і ефекти навколишнього середовища, а EnCodec забезпечує якісну обробку звуку.
Музиканти давно експериментують з електронним звуком, але комп’ютерні програми створюють музику на основі наявних звукових семплів. Аудіо від AudioCraft генерується лише з текстової підказки. Meta надала журналістам зразки аудіо, згенерованого за допомогою AudioCraft. Шумові ефекти, такі як свист, вітер, виття сирен і автомобільні сигнали звучали вельми достовірно. А ось гітарні партії здалися слухачам неприродними.
Зараз музика, згенерована AudioCraft, найбільше нагадує muzak (злегка зневажливий термін, застосовуваний для більшості форм фонової музики, незалежно від джерела, “музика для ліфта”) або невибагливий атмосферний ембієнт, і не претендує на роль наступного великого поп-хіта. Проте Meta вважає, що AudioCraft може відкрити нову хвилю музичної моди, як це колись зробили перші синтезатори.
Meta визнала складність створення моделей ШІ для генерації музики, за твердженням представника компанії, це завдання на кілька порядків важче, ніж генерація тексту за допомогою ШІ, подібного до Llama 2. Компанія вважає, що відкритий вихідний код AudioCraft допоможе урізноманітнити дані, використовувані для його навчання.
“Ми розуміємо, що набори даних, які використовуються для навчання наших моделей, не вирізняються різноманітністю: більша частина музики в західному стилі, пари аудіо-текст із текстом і метаданими написані англійською мовою, – пояснив представник Меtа. – Поділившись кодом для AudioCraft, ми сподіваємося, що іншим дослідникам буде легше тестувати нові підходи до обмеження або усунення потенційної упередженості та неправильного використання генеративних моделей”.
Meta – далеко не піонер у сфері генерації аудіо за допомогою ШІ. Велика мовна модель MusicLM від Google цілком успішно генерує аудіо, щоправда, доступна вона тільки дослідникам. Згенерована АІ пісня з голосовою схожістю Drake і The Weeknd миттєво стала вірусною. Нещодавно Граймс дозволила використовувати імітацію свого голосу в треках ШІ. Зі свого боку, звукозаписні лейбли та артисти вже забили тривогу, оскільки багато моделей ШІ можуть використовувати для навчання матеріали, захищені авторським правом.
Читайте також:
Leave a Reply