შაბათი, 27 აპრილი, 2024 წ

დესკტოპის v4.2.1

Root NationსიახლეებიIT სიახლეებიმეტას მეტყველება AI ცნობს 4-ზე მეტ სალაპარაკო ენას

მეტას მეტყველება AI ცნობს 4-ზე მეტ სალაპარაკო ენას

-

Meta შექმნა AI ენის მოდელი, რომელიც არ არის ChatGPT კლონი. კომპანიის Massively Multilingual Speech (MMS) პროექტს შეუძლია 4-ზე მეტი სალაპარაკო ენა ამოიცნოს და მეტყველების რეპროდუცირება (ტექსტით მეტყველება) 000-ზე მეტ ენაზე. ისევე როგორც მისი საჯაროდ გამოცხადებული ხელოვნური ინტელექტის პროექტების უმეტესი ნაწილი, Meta დღეს ანიჭებს MMS-ს ღია წვდომას, რათა დაეხმაროს ენობრივი მრავალფეროვნების შენარჩუნებას და წაახალისოს მკვლევარები მის განვითარებაში. „დღეს ჩვენ საჯაროდ ვაზიარებთ ჩვენს მოდელებსა და კოდებს, რათა კვლევითი საზოგადოების სხვა წევრებმა შეძლონ ჩვენი სამუშაოს დაფუძნება“, - წერს კომპანია. „ამ სამუშაოს წყალობით, ჩვენ ვიმედოვნებთ, რომ მცირე წვლილი შევიტანოთ მსოფლიოს წარმოუდგენელი ენობრივი მრავალფეროვნების შენარჩუნებაში.

Meta

მეტყველების ამოცნობა და ტექსტიდან მეტყველების მოდელები, როგორც წესი, საჭიროებს ტრენინგს ათასობით საათის აუდიო ჩანაწერზე თანმხლები ტრანსკრიფციის ეტიკეტებით. მაგრამ იმ ენებზე, რომლებიც ფართოდ არ არის გავრცელებული ინდუსტრიულ ქვეყნებში - რომელთაგან ბევრს გადაშენება ემუქრება უახლოეს ათწლეულებში - "ეს მონაცემები უბრალოდ არ არსებობს", - ამბობს მეტა.

მეტამ აუდიო მონაცემების შეგროვების მიმართ არატრადიციული მიდგომა მიიღო: თარგმნილი რელიგიური ტექსტების აუდიოჩანაწერების მოსმენა. „ჩვენ მივმართეთ რელიგიურ ტექსტებს, როგორიცაა ბიბლია, რომლებიც ითარგმნა მრავალ სხვადასხვა ენაზე და რომელთა თარგმანები ფართოდ იქნა შესწავლილი ტექსტზე დაფუძნებული თარგმანის კვლევისთვის“, - აცხადებენ კომპანიაში. "ამ თარგმანებს აქვთ საჯაროდ ხელმისაწვდომი აუდიოჩანაწერები, რომლებიც კითხულობენ ამ ტექსტებს სხვადასხვა ენაზე." ბიბლიიდან და მსგავსი ტექსტებიდან ამოუცნობი ჩანაწერების ჩათვლით, მეტას მკვლევარებმა გაზარდეს მოდელისთვის ხელმისაწვდომი ენების რაოდენობა 4-მდე.

„მიუხედავად იმისა, რომ აუდიოჩანაწერების შინაარსი რელიგიურია, ჩვენი ანალიზი აჩვენებს, რომ ეს არ იმოქმედებს მოდელის მიერ უფრო რელიგიური ენის წარმოებაზე“, წერს მეტა. "ჩვენ გვჯერა, რომ ეს იმიტომ ხდება, რომ ჩვენ ვიყენებთ კავშირგაბმულობის დროებითი კლასიფიკაციის (CTC) მიდგომას, რომელიც ბევრად უფრო შეზღუდულია მეტყველების ამოცნობის დიდი ენის მოდელებთან (LLM) ან თანმიმდევრობის მოდელებთან შედარებით." ასევე, მიუხედავად იმისა, რომ რელიგიური ტექსტების უმრავლესობას მამაკაცები კითხულობდნენ, ამას არ მოჰყოლია მამაკაცის მიკერძოება - სისტემა თანაბრად კარგად ცნობდა როგორც ქალის, ასევე მამაკაცის ხმებს.

გასწორების მოდელის ტრენინგის შემდეგ, რათა მონაცემები უფრო გამოსაყენებელი ყოფილიყო, მეტამ გამოიყენა wav2vec 2.0, კომპანიის "თვით ზედამხედველობითი ენების წარმოდგენის სწავლის" მოდელი, რომელსაც შეუძლია ისწავლოს არალეიბლირებულ მონაცემებზე. მონაცემთა არატრადიციული წყაროებისა და თვითმართული მეტყველების მოდელის ერთობლიობამ გამოიწვია შთამბეჭდავი შედეგები. "ჩვენი შედეგები აჩვენებს, რომ მასობრივი მრავალენოვანი მაუწყებლობის მოდელები კარგად მუშაობს არსებულ მოდელებთან შედარებით და მოიცავს 10-ჯერ მეტ ენას." კერძოდ, Meta-მ MMS შეადარა OpenAI-ს Whisper-ს და შედეგებმა მოლოდინს გადააჭარბა. „ჩვენ აღმოვაჩინეთ, რომ მასიური მრავალენოვანი მეტყველების მონაცემებზე მომზადებულ მოდელებს აქვთ სიტყვების შეცდომების ნახევარი პროცენტი, მაგრამ Massively Multilingual Speech მოიცავს 11-ჯერ მეტ ენას“.

Meta აფრთხილებს, რომ მისი ახალი მოდელები არ არის სრულყოფილი. „მაგალითად, არსებობს გარკვეული რისკი, რომ მეტყველების ტექსტში მოდელმა შეიძლება არასწორად თარგმნოს ცალკეული სიტყვები ან ფრაზები“, წერს კომპანია. „შედეგიდან გამომდინარე, ამან შეიძლება გამოიწვიოს შეურაცხმყოფელი და/ან არაზუსტი ენა. ჩვენ კვლავ გვჯერა, რომ ხელოვნური ინტელექტის საზოგადოებაში თანამშრომლობა გადამწყვეტია ხელოვნური ინტელექტის ტექნოლოგიების პასუხისმგებელი განვითარებისთვის. ”

Meta

ახლა, როდესაც Meta-მ გამოუშვა MMS ღია წყაროს კვლევისთვის, ის იმედოვნებს, რომ შეცვალოს მსოფლიოში ენების რაოდენობის შემცირების ტენდენცია 100-მდე ან ნაკლებზე, რომელთა უმეტესობა მხარდაჭერილია ძირითადი ტექნოლოგიებით. ის ხედავს სამყაროს, სადაც დამხმარე ტექნოლოგია, TTS და თუნდაც VR/AR ტექნოლოგიები საშუალებას აძლევს ყველას ისაუბროს და ისწავლოს მშობლიურ ენაზე. მასში ნათქვამია: ”ჩვენ წარმოვიდგენთ სამყაროს, სადაც ტექნოლოგიას აქვს საპირისპირო ეფექტი, წაახალისებს ხალხს, შეინარჩუნონ თავიანთი ენები, რადგან მათ შეუძლიათ მიიღონ ინფორმაცია და გამოიყენონ ტექნოლოგია მშობლიურ ენაზე საუბრისას.”

ასევე წაიკითხეთ:

ჯერილოEngadget
დარეგისტრირდით
შეატყობინეთ შესახებ
სასტუმრო

0 კომენტარები
ჩაშენებული მიმოხილვები
ყველა კომენტარის ნახვა
გამოიწერეთ განახლებები