인공지능(AI)이 만들어낸 음악은 이미 현실이 됐다. AI 도구는 이제 텍스트 프롬프트만으로 음악을 만들 수 있으며 그 결과는 모든 기대치를 뛰어넘습니다.
하지만 AI 도구가 직접 음악을 만들 수 있다는 의미는 아니다. 대신 음악은 음악의 스펙트로그램을 생성하는 AI 이미지 생성기를 통과합니다. 그런 다음 이러한 스펙트로그램을 오디오 클립으로 변환할 수 있습니다. 이것은 AI가 생성한 음악이 미래에 인간이 만든 음악을 대체한다는 것을 의미합니까?
이미지 기반 AI는 장소와 사물의 이미지를 인식하는 컴퓨터 알고리즘을 가르칩니다. 그런 다음 알고리즘을 사용하여 유사하지만 고유한 이미지를 재현합니다. DALL-E와 Stable Diffusion이 좋은 예입니다. 지금은 이러한 프로그램이 원하는 모든 것을 렌더링하도록 할 수 있습니다. 모두 문자로!
그래서 스펙트로그램을 생성할 수 있는 AI 도구를 Riffusion이라고 합니다. 이것은 최신 AI 프로젝트이며 본질적으로 안정적인 확산(Stable Diffusion)을 기반으로 텍스트에서 이미지를 생성하는 것입니다. 그러나 그는 어떻게 음악을 만들 수 있게 되었습니까?
Riffusion 뒤에는 로봇 공학자 Heik Martiros와 소프트웨어 개발자 Seth Forsgren이 있습니다. 그들은 최신 AI 프로그램이 오디오 분야에서 작동할 수 있는지 테스트하고 싶었습니다. 그리하여 Riffusion의 음악 제작 여정이 시작되었습니다. Forsgren은 이 기술에 대해 다음과 같이 말합니다. 이미지 생성을 위한 Stable Diffusion의 놀라운 결과를 본 후, 우리는 음악을 만들기 위해 확산 접근 방식을 사용하는 것이 어떤 모습일지 스스로에게 질문했습니다.
이를 알아보기 위해 두 팀으로 구성된 팀이 스펙트로그램 이미지에서 오픈 소스 Stable Diffusion을 교육했습니다. 그들은 텍스트와 결합되었습니다. 그 후 프로그램은 특정 단서를 기반으로 음악의 스펙트로그램을 생성할 수 있었습니다.
처음에 그들은 Stable Diffusion 모델 아키텍처가 오디오로 변환하기에 충분한 정확도로 스펙트로그램 이미지를 생성할 수 있는지 몰랐지만, 그 이상을 할 수 있음이 밝혀졌습니다. Martiros와 Forsgren은 공식 Riffusion 웹사이트에 결과를 게시했습니다. 처음에는 취미 프로젝트였습니다. 그러나 이제 방문자는 자신의 텍스트 팁을 추가할 수 있습니다. 이렇게 하면 Riffusion이 스펙트로그램을 생성하게 됩니다. 나중에 방문자는 오디오 클립으로 사용하고 사이트에서 재생할 수 있습니다.
이 단계의 결과는 품질이 그리 좋지 않을 수 있습니다. 하지만 생각만큼 나쁘지는 않습니다.
Riffusion은 다음이 포함된 노래를 재생하려고 시도할 수도 있습니다. 에미넴 스타일의 랩 그리고 케이팝. 하지만 가사 생성 기능은 그다지 좋지 않습니다. 텍스트 대신 선율적인 인간의 횡설수설이 들립니다. 하지만 가장 흥미로운 점은 이 횡설수설이 여전히 노래의 톤과 일치한다는 것입니다.
이 기술은 아직 인간이 만든 음악을 대체할 준비가 되지 않았습니다. 하지만 이 프로젝트는 AI 이미지 처리 알고리즘이 여전히 큰 잠재력을 가지고 있음을 보여주었습니다. 곧 음악 작가의 조수가 될 수 있습니다. 곡을 쓸 영감을 얻기 위해서일 수도 있습니다.
당신은 우크라이나가 러시아 침략자에 맞서 싸울 수 있도록 도울 수 있습니다. 이를 수행하는 가장 좋은 방법은 다음을 통해 우크라이나 군대에 기금을 기부하는 것입니다. 세이브라이프 또는 공식 페이지를 통해 NBU.