Root Nationأخبارأخبار تكنولوجيا المعلوماتتم تعليم مولد صور AI لإنشاء الموسيقى

تم تعليم مولد صور AI لإنشاء الموسيقى

-

أصبحت الموسيقى التي تم إنشاؤها بواسطة الذكاء الاصطناعي حقيقة واقعة. يمكن لأدوات الذكاء الاصطناعي الآن إنشاء موسيقى بدون أي شيء سوى مطالبة نصية وتتجاوز النتائج كل التوقعات.

ومع ذلك ، هذا لا يعني أن أدوات الذكاء الاصطناعي يمكنها إنشاء الموسيقى مباشرة. بدلاً من ذلك ، تمر الموسيقى عبر مولدات صور AI التي تنشئ مخططات طيفية للموسيقى. يمكنك بعد ذلك تحويل هذه الطيف إلى مقاطع صوتية. هل يعني هذا أن الموسيقى المولدة بواسطة الذكاء الاصطناعي ستحل محل الموسيقى التي صنعها الإنسان في المستقبل؟

إنتشار

يقوم الذكاء الاصطناعي المعتمد على الصور بتعليم خوارزميات الكمبيوتر التعرف على صور الأماكن والأشياء. بعد ذلك ، تُستخدم الخوارزميات لإعادة إنتاج صور متشابهة ولكنها فريدة من نوعها. DALL-E و Stable Diffusion هما مثالان جيدان. في الوقت الحالي ، يمكنك جعل هذه البرامج تقدم أي شيء تريده. كل ذلك من خلال النص!

لذا ، فإن أداة الذكاء الاصطناعي التي يمكنها إنشاء مخططات طيفية تسمى Riffusion. هذا هو أحدث مشروع للذكاء الاصطناعي ، وهو في جوهره مولد للصور من نص يعتمد على الانتشار المستقر (Stable Diffusion). لكن كيف أصبح قادرًا على تأليف الموسيقى؟

إنتشار

وراء شركة Riffusion عالم الروبوتات Heik Martiros ومطور البرمجيات Seth Forsgren. لقد أرادوا اختبار ما إذا كانت برامج الذكاء الاصطناعي الحديثة يمكن أن تعمل في مجال الصوت. هكذا بدأت رحلة Riffusion الموسيقية. يتحدث فورسغرين عن تقنية مثل هذه: "أنا وهايك نعزف في فرقة صغيرة معًا ، وبدأنا المشروع لمجرد أننا نحب الموسيقى. بعد رؤية النتائج المذهلة لـ Stable Diffusion لتوليد الصور ، سألنا أنفسنا كيف سيكون شكل استخدام نهج الانتشار لإنشاء الموسيقى؟

لمعرفة ذلك ، قام فريق مكون من شخصين بتدريب المصدر المفتوح "Stable Diffusion" على صور المخطط الطيفي. تم دمجها مع النص. بعد ذلك ، تمكن البرنامج من إنشاء مخططات طيفية للموسيقى بناءً على أدلة معينة.

في البداية ، لم يعرفوا ما إذا كان بإمكان بنية نموذج الانتشار المستقر إنشاء صورة مخطط طيفي بدقة كافية لتحويلها إلى صوت ، ولكن اتضح أنها يمكن أن تفعل ذلك وأكثر. نشر Martiros و Forsgren نتائجهما على موقع Riffusion الرسمي. في البداية كان مشروع هواية. ولكن الآن يمكن للزوار إضافة نصائح نصية خاصة بهم. سيؤدي هذا إلى إجبار Riffusion على إنشاء مخطط طيفي. في وقت لاحق ، يمكن للزوار استخدامه كمقطع صوتي وتشغيله على الموقع.

قد لا تكون النتائج في هذه المرحلة عالية الجودة. لكنها بالتأكيد ليست بالسوء الذي قد تعتقده.

قد يحاول Riffusion أيضًا تشغيل الأغاني التي تتضمن راب بأسلوب Eminem و K-Pop. لكن وظيفة توليد الكلمات ليست جيدة. بدلاً من النص ، سوف تسمع رطانة بشرية شنيعة. لكن الشيء الأكثر إثارة للاهتمام هو أن هذه الثرثرة لا تزال تتطابق مع نغمة الأغنية.

هذه التكنولوجيا ليست جاهزة بعد لتحل محل الموسيقى التي من صنع الإنسان. لكن المشروع أظهر لنا أن خوارزميات معالجة الصور بالذكاء الاصطناعي لا تزال تتمتع بإمكانيات كبيرة. سرعان ما يمكن أن يصبح مساعدًا لمؤلفي الموسيقى. ربما للحصول على بعض الإلهام لكتابة أغنية.

يمكنك مساعدة أوكرانيا في محاربة الغزاة الروس. أفضل طريقة للقيام بذلك هي التبرع بالأموال للقوات المسلحة لأوكرانيا من خلال الحفاظ على الحياة او من خلال الصفحة الرسمية NBU.

مصدرgizchina
اشتراك
يخطر حول
ضيف

0 التعليقات
المراجعات المضمنة
عرض كل التعليقات