Categories: Новини IT

Генератор зображень ШІ навчили створювати музику

Музика, згенерована штучним інтелектом (ШІ), вже стала реальністю. Інструменти ШІ тепер можуть створювати музику, не маючи нічого, крім текстової підказки і результати перевершують всі очікування.

Проте, це не означає, що інструменти штучного інтелекту можуть безпосередньо створювати музику. Замість цього музика проходить через ШІ-генератори зображень, які створюють спектрограми музики. Потім ви можете перетворити ці спектрограми на аудіокліпи. Чи означає це, що в майбутньому музика, створена штучним інтелектом, замінить музику, створену людиною?

ШІ на основі зображень навчає комп’ютерні алгоритми розпізнавати зображення місць і об’єктів. Після цього алгоритми використовуються для відтворення схожих, але унікальних зображень. Хорошими прикладами можуть бути DALL-E і Stable Diffusion. На цю мить ви можете змусити ці програми візуалізувати все, що завгодно. Все через текст!

Отже, інструмент ШІ, який може створювати спектрограми, називається Riffusion. Це найновіший проєкт ШІ, і за своєю суттю він є генератором зображень з тексту на основі стабільної дифузії (Stable Diffusion). Але як він став здатним генерувати музику?

За Riffusion стоять робототехнік Хейк Мартірос і розробник програмного забезпечення Сет Форсгрен. Вони хотіли перевірити, чи можуть сучасні програми зі штучним інтелектом працювати в аудіосфері. Так почалася подорож Riffusion у створенні музики. Форсгрен розповідає про технологію так: «Хейк і я граємо в невеликій групі разом, і ми почали проєкт просто тому, що любимо музику. Побачивши приголомшливі результати Stable Diffusion для генерації зображень, ми запитали себе, як би виглядало використання дифузійного підходу для створення музики?».

Щоб з’ясувати це, команда з двох чоловік навчила Stable Diffusion з відкритим вихідним кодом на зображеннях спектрограм. Вони були поєднані з текстом. Після цього програма була здатна створювати спектрограми музики на основі певних підказок.

Спочатку вони не знали, чи зможе архітектура моделі Stable Diffusion створити зображення спектрограми з достатньою точністю для перетворення в аудіо, але виявилося, що вона може це зробити і навіть більше. Мартірос і Форсгрен опублікували свої результати на офіційному сайті Riffusion. Спочатку це був хобі-проєкт. Але тепер відвідувачі можуть додавати свої текстові підказки. Це змусить Riffusion створити спектрограму. Згодом відвідувачі можуть використовувати її як аудіокліп і відтворювати на сайті.

Результати на цьому етапі можуть бути не дуже якісними. Але це точно не так погано, як ви могли б подумати.

Riffusion також може намагатися відтворювати пісні, які включають реп у стилі Емінема та K-Pop. Але функція генерації текстів пісень не така вже й хороша. Замість тексту ви почуєте мелодійну людську тарабарщину. Але найцікавіше, що ця тарабарщина все одно відповідає тону пісні.

Ця технологія ще не готова замінити музику, створену людиною. Але проєкт показав нам, що алгоритми обробки зображень ШІ все ще мають великий потенціал. Незабаром він може стати помічником для авторів музики. Можливо, щоб отримати натхнення для написання пісні.

Ви можете допомогти Україні боротися з російськими окупантами. Найкращий спосіб зробити це – пожертвувати кошти Збройним Силам України через Savelife або через офіційну сторінку НБУ.

Share
Julia Alexandrova

Кофеман. Фотограф. Пишу про науку та космос. Вважаю, нам ще рано зустрічатися з прибульцями. Стежу за розвитком робототехніки, на всяк випадок ...

Leave a Reply

Your email address will not be published. Required fields are marked*