Root NationTin tứcTin tức CNTTBài phát biểu AI của Meta nhận dạng hơn 4 ngôn ngữ nói

Bài phát biểu AI của Meta nhận dạng hơn 4 ngôn ngữ nói

-

Siêu dữ liệu đã tạo một mô hình ngôn ngữ AI không phải là bản sao ChatGPT. Dự án Massively Multilingual Speech (MMS) của công ty có thể nhận dạng hơn 4 ngôn ngữ nói và tái tạo lời nói (chuyển văn bản thành giọng nói) trong hơn 000 ngôn ngữ. Giống như hầu hết các dự án AI được công bố công khai của mình, Meta ngày nay cung cấp quyền truy cập mở cho MMS để giúp duy trì sự đa dạng về ngôn ngữ và khuyến khích các nhà nghiên cứu phát triển nó. "Hôm nay chúng tôi chia sẻ công khai các mô hình và mã của mình để các thành viên khác trong cộng đồng nghiên cứu có thể phát triển dựa trên công việc của chúng tôi", công ty viết. "Nhờ công việc này, chúng tôi hy vọng sẽ đóng góp một phần nhỏ vào việc bảo tồn sự đa dạng ngôn ngữ đáng kinh ngạc của thế giới."

Siêu dữ liệu

Các mô hình nhận dạng giọng nói và chuyển văn bản thành giọng nói thường yêu cầu đào tạo về hàng nghìn giờ ghi âm với các nhãn phiên âm đi kèm. Nhưng đối với các ngôn ngữ không được sử dụng rộng rãi ở các nước công nghiệp hóa – nhiều ngôn ngữ trong số đó đang bị đe dọa tuyệt chủng trong những thập kỷ tới – “dữ liệu này đơn giản là không tồn tại,” Meta nói.

Meta đã thực hiện một cách tiếp cận độc đáo để thu thập dữ liệu âm thanh: nghe các bản ghi âm của các văn bản tôn giáo đã được dịch. Công ty cho biết: “Chúng tôi đã chuyển sang các văn bản tôn giáo, chẳng hạn như Kinh thánh, đã được dịch sang nhiều ngôn ngữ khác nhau và bản dịch của chúng đã được nghiên cứu rộng rãi để nghiên cứu dịch thuật dựa trên văn bản. "Những bản dịch này có bản ghi âm công khai của những người đọc những văn bản này bằng các ngôn ngữ khác nhau." Bằng cách bao gồm các mục không được đánh dấu từ Kinh thánh và các văn bản tương tự, các nhà nghiên cứu Meta đã tăng số lượng ngôn ngữ có sẵn cho mô hình lên hơn 4.

Meta viết: “Mặc dù nội dung của bản ghi âm là tôn giáo, nhưng phân tích của chúng tôi cho thấy điều này không ảnh hưởng đến việc mô hình tạo ra ngôn ngữ tôn giáo hơn”. "Chúng tôi tin rằng điều này là do chúng tôi sử dụng phương pháp phân loại theo thời gian kết nối (CTC), phương pháp này hạn chế hơn nhiều so với các mô hình ngôn ngữ lớn (LLM) hoặc mô hình trình tự để nhận dạng giọng nói." Ngoài ra, mặc dù thực tế là phần lớn các văn bản tôn giáo được đọc bởi nam giới, nhưng điều này không dẫn đến sự thiên vị của nam giới – hệ thống nhận dạng giọng nói của cả nam và nữ tốt như nhau.

Sau khi đào tạo một mô hình căn chỉnh để làm cho dữ liệu dễ sử dụng hơn, Meta đã sử dụng wav2vec 2.0, mô hình "học biểu diễn ngôn ngữ tự giám sát" của công ty có thể học trên dữ liệu chưa được gắn nhãn. Sự kết hợp giữa các nguồn dữ liệu phi truyền thống và mô hình lời nói tự định hướng đã dẫn đến kết quả ấn tượng. "Kết quả của chúng tôi cho thấy các mô hình phát sóng đại chúng đa ngôn ngữ hoạt động tốt so với các mô hình hiện có và bao phủ nhiều ngôn ngữ hơn 10 lần." Đặc biệt, Meta đã so sánh MMS với OpenAI's Whisper và kết quả vượt quá mong đợi. "Chúng tôi nhận thấy rằng các mô hình được đào tạo trên dữ liệu Bài phát biểu đa ngôn ngữ có một nửa tỷ lệ lỗi từ, nhưng Bài phát biểu đa ngôn ngữ bao gồm nhiều ngôn ngữ hơn 11 lần."

Meta cảnh báo rằng các mô hình mới của nó không hoàn hảo. "Ví dụ, có một số rủi ro là mô hình chuyển lời nói thành văn bản có thể dịch sai các từ hoặc cụm từ riêng lẻ", công ty viết. “Tùy thuộc vào kết quả, điều này có thể dẫn đến ngôn ngữ xúc phạm và/hoặc không chính xác. Chúng tôi tiếp tục tin rằng sự hợp tác trong cộng đồng AI là rất quan trọng đối với sự phát triển có trách nhiệm của các công nghệ AI.”

Siêu dữ liệu

Giờ đây, Meta đã phát hành MMS cho nghiên cứu mã nguồn mở, hy vọng sẽ đảo ngược xu hướng giảm số lượng ngôn ngữ trên thế giới xuống còn 100 hoặc ít hơn, hầu hết trong số đó được hỗ trợ bởi các công nghệ lớn. Cô ấy nhìn thấy một thế giới nơi công nghệ hỗ trợ, TTS và thậm chí cả công nghệ VR/AR cho phép mọi người nói và học bằng ngôn ngữ mẹ đẻ của họ. Nó nói: "Chúng tôi hình dung một thế giới nơi công nghệ có tác dụng ngược lại, khuyến khích mọi người giữ cho ngôn ngữ của họ tồn tại vì họ có thể truy cập thông tin và sử dụng công nghệ trong khi nói ngôn ngữ mẹ đẻ của mình."

Đọc thêm:

DzhereloEngadget
Đăng ký
Thông báo về
khách sạn

0 Nhận xét
Bài đánh giá được nhúng
Xem tất cả các bình luận