Infinix 제로 30
Root Nation Новини IT 뉴스 새로운 AI Microsoft 3초 오디오 샘플에서 모든 사람의 목소리를 흉내냅니다.

새로운 AI Microsoft 3초 오디오 샘플에서 모든 사람의 목소리를 흉내냅니다.

Microsoft AI VALL-E

목요일에는 연구원들이 Microsoft 3초 오디오 샘플이 제공되면 사람의 목소리를 정확하게 모방할 수 있는 VALL-E라는 새로운 인공지능(AI) 모델을 발표했습니다. 특정 목소리를 학습하면 VALL-E는 화자의 감정적인 어조를 유지하면서 그 사람이 말하는 오디오를 합성할 수 있습니다.

저자는 VALL-E가 고품질 텍스트 음성 변환, 음성 편집에 사용될 수 있다고 제안합니다. 여기서 사람의 녹음을 편집하고 텍스트 전사에서 변경할 수 있습니다(원래 말하지 않은 것을 말하게 함). 다음과 같은 다른 생성 AI 모델과 결합된 오디오 콘텐츠 생성 GPT-3.

Microsoft AI VALL-E

Microsoft VALL-E를 "신경 코덱 언어 모델"이라고 부르며 이는 Meta가 2022년 XNUMX월에 발표한 EnCodec이라는 기술을 기반으로 합니다. 일반적으로 파형을 조작하여 음성을 합성하는 다른 텍스트 음성 변환 방법과 달리 VALL-E는 개별 오디오를 생성합니다. 텍스트 및 음향 프롬프트의 코덱 코드. 기본적으로 사람의 소리를 분석하고, EnCodec 덕분에 해당 정보를 개별 구성 요소("토큰"이라고 함)로 나누고, 훈련 데이터를 사용하여 외부에서 다른 문구를 말할 경우 해당 음성이 어떻게 들릴지 "알고 있는" 내용과 일치시킵니다. XNUMX초 샘플 중

Microsoft LibriLight라는 Meta가 편집한 오디오 라이브러리에서 VALL-E의 음성 합성 기능을 훈련했습니다. 여기에는 60명 이상의 아나운서가 진행하는 7시간 분량의 영어 방송이 포함되어 있으며 대부분 공개적으로 이용 가능한 LibriVox 오디오북에서 가져온 것입니다.

VALL-E는 아나운서의 음색과 감정적인 톤을 보존하는 것 외에도 오디오 샘플의 "음향 환경"을 시뮬레이션할 수도 있습니다. 예를 들어, 전화 대화에서 샘플을 얻은 경우 합성된 오디오 출력은 전화 대화의 음향 및 주파수 특성을 시뮬레이션합니다. 또한 샘플 Microsoft VALL-E가 보컬 음색 변화를 생성할 수 있음을 보여줍니다.

Microsoft AI VALL-E

아마도 사기와 속임수를 잠재적으로 조장하는 VALL-E의 능력으로 인해, Microsoft 다른 사람들이 실험할 수 있도록 VALL-E 코드를 제공하지 않았으므로 해당 기능을 테스트할 수 없습니다. 연구자들은 이 기술이 가져올 수 있는 잠재적인 사회적 피해를 인식하고 있는 것 같습니다. 기사의 결론에서 그들은 다음과 같이 썼습니다.

“VALL-E는 화자의 신원을 보존하는 음성을 합성할 수 있기 때문에 음성 식별을 스푸핑하거나 특정 화자를 사칭하는 등 모델 남용의 잠재적 위험을 수반할 수 있습니다. 이러한 위험을 줄이기 위해 오디오 클립이 VALL-E를 사용하여 합성되었는지 여부를 구별하는 인식 모델을 구축할 것입니다."

당신은 우크라이나가 러시아 침략자에 맞서 싸울 수 있도록 도울 수 있습니다. 이를 수행하는 가장 좋은 방법은 다음을 통해 우크라이나 군대에 기금을 기부하는 것입니다. 세이브라이프 또는 공식 페이지를 통해 NBU.

또한 읽기:

가입하기
에 대해 알림
손님

0 코멘트
임베디드 리뷰
모든 댓글 보기
0
우리는 여러분의 생각을 좋아합니다. 댓글을 달아주세요.x