Generátor obrázků AI se naučil vytvářet hudbu

Hudba generovaná umělou inteligencí (AI) se již stala realitou. Nástroje umělé inteligence nyní dokážou vytvářet hudbu pouze pomocí textové výzvy a výsledky předčí všechna očekávání.

To však neznamená, že nástroje AI mohou přímo vytvářet hudbu. Místo toho hudba prochází generátory obrázků AI, které vytvářejí spektrogramy hudby. Tyto spektrogramy pak můžete převést na zvukové klipy. Znamená to, že hudba generovaná umělou inteligencí v budoucnu nahradí hudbu vytvořenou lidmi?

Rifúze

Umělá inteligence založená na obrázcích učí počítačové algoritmy rozpoznávat obrázky míst a objektů. Poté se používají algoritmy k reprodukci podobných, ale jedinečných obrázků. Dobrými příklady jsou DALL-E a Stable Diffusion. Prozatím si tyto programy můžete nechat vykreslit, co chcete. Vše přes text!

Takže nástroj AI, který dokáže vytvářet spektrogramy, se nazývá Riffusion. Jedná se o nejnovější projekt AI a ve své podstatě jde o generátor obrázků z textu založený na stabilní difúzi (Stable Diffusion). Ale jak se stal schopným tvořit hudbu?

Rifúze

Za Riffusion stojí robotik Heik Martiros a softwarový vývojář Seth Forsgren. Chtěli vyzkoušet, zda moderní programy umělé inteligence mohou fungovat v oblasti zvuku. Tak začala hudební cesta Riffusion. Forsgren o technologii mluví takto: „Hake a já spolu hrajeme v malé kapele a začali jsme projekt jen proto, že milujeme hudbu. Poté, co jsme viděli úžasné výsledky Stable Diffusion pro generování obrazu, zeptali jsme se sami sebe, jak by vypadalo použití difúzního přístupu k tvorbě hudby?

Aby to zjistil, tým dvou trénoval open-source Stable Diffusion na spektrogramových snímcích. Byly kombinovány s textem. Poté byl program schopen vytvořit spektrogramy hudby na základě určitých vodítek.

Zpočátku nevěděli, zda architektura modelu Stable Diffusion dokáže vytvořit obraz spektrogramu s dostatečnou přesností, aby jej bylo možné převést na zvuk, ale ukázalo se, že to dokáže a mnohem více. Martiros a Forsgren zveřejnili své výsledky na oficiálních stránkách Riffusion. Zpočátku to byl hobby projekt. Nyní ale mohou návštěvníci přidávat vlastní textové tipy. To přinutí Riffusion generovat spektrogram. Později jej mohou návštěvníci použít jako zvukový klip a přehrát si jej na webu.

Výsledky v této fázi nemusí být příliš kvalitní. Rozhodně to ale není tak zlé, jak si možná myslíte.

Riffusion se také může pokusit přehrát skladby, které obsahují rap ve stylu Eminema a K-Pop. Ale funkce generování textů není tak dobrá. Místo textu uslyšíte melodický lidský blábol. Nejzajímavější ale je, že tento blábol stále odpovídá tónu písně.

Tato technologie ještě není připravena nahradit lidskou hudbu. Ale projekt nám ukázal, že algoritmy pro zpracování obrazu AI mají stále velký potenciál. Brzy se může stát pomocníkem pro autory hudby. Možná pro inspiraci k napsání písně.

Můžete pomoci Ukrajině v boji proti ruským vetřelcům. Nejlepším způsobem, jak toho dosáhnout, je darovat finanční prostředky ozbrojeným silám Ukrajiny prostřednictvím Zachraňte život nebo přes oficiální stránku NBÚ.

Zajímavé také:

Dzherelogizchina

Přihlásit se

0 Komentáře

Vložené recenze

Zobrazit všechny komentáře

Další články

Generátor obrázků AI se naučil vytvářet hudbu

Nedávné Komentáře