პარასკევი, 19 წლის 2024 აპრილი

დესკტოპის v4.2.1

Root NationსიახლეებიIT სიახლეებიახალი AI Microsoft ბაძავს ნებისმიერი ადამიანის ხმას 3 წამიანი აუდიო ნიმუშიდან

ახალი AI Microsoft ბაძავს ნებისმიერი ადამიანის ხმას 3 წამიანი აუდიო ნიმუშიდან

-

ხუთშაბათს მკვლევარებმა Microsoft გამოაცხადა ახალი ხელოვნური ინტელექტის (AI) მოდელი სახელწოდებით VALL-E, რომელსაც შეუძლია ზუსტად მიბაძოს ადამიანის ხმას სამი წამიანი აუდიო ნიმუშის მიცემისას. როდესაც ის ისწავლის კონკრეტულ ხმას, VALL-E-ს შეუძლია მოახდინოს ამ ადამიანის ნათქვამის აუდიოს სინთეზი, ხოლო მოსაუბრეს ემოციური ტონი შეინარჩუნოს.

მისი ავტორები ვარაუდობენ, რომ VALL-E შეიძლება გამოყენებულ იქნას მაღალი ხარისხის ტექსტის მეტყველებაში, მეტყველების რედაქტირებისთვის, სადაც ადამიანის ჩანაწერის რედაქტირება და შეცვლა შესაძლებელია ტექსტის ტრანსკრიპციიდან (აიძულებს მათ თქვან ის, რაც თავდაპირველად არ თქვეს) და აუდიო კონტენტის შესაქმნელად სხვა გენერაციულ AI მოდელებთან ერთად, როგორიცაა GPT-3.

Microsoft AI VALL-E

Microsoft VALL-E-ს უწოდებს "ნერვული კოდეკის ენის მოდელს" და ეფუძნება ტექნოლოგიას სახელად EnCodec, რომელიც Meta-მ გამოაცხადა 2022 წლის ოქტომბერში. განსხვავებით სხვა ტექსტიდან მეტყველების მეთოდებისგან, რომლებიც, როგორც წესი, ახდენენ მეტყველების სინთეზს ტალღის ფორმების მანიპულირებით, VALL-E წარმოქმნის დისკრეტულ აუდიოს. კოდეკის კოდები ტექსტიდან და აკუსტიკური მოთხოვნებიდან. ის ძირითადად აანალიზებს, თუ როგორ ჟღერს ადამიანი, ანაწილებს ინფორმაციას დისკრეტულ კომპონენტებად (ე.წ. "tokens") EnCodec-ის წყალობით და იყენებს ტრენინგის მონაცემებს, რათა შეესაბამებოდეს რა "იცის" იმის შესახებ, თუ როგორ ჟღერს ეს ხმა, თუ ის სხვა ფრაზებს ლაპარაკობდა გარეთ. სამწამიანი ნიმუშიდან.

Microsoft მოამზადა VALL-E-ის მეტყველების სინთეზის შესაძლებლობები Meta-ს მიერ შედგენილ აუდიო ბიბლიოთეკაზე, სახელწოდებით LibriLight. ის შეიცავს 60 საათს ინგლისურენოვან მაუწყებლობას 7-ზე მეტი გამომცემლისგან, ძირითადად აღებულია საჯაროდ ხელმისაწვდომი LibriVox აუდიოწიგნებიდან.

გარდა იმისა, რომ ინარჩუნებს ხმის ტემბრს და ემოციურ ტონს, VALL-E-ს შეუძლია აუდიო ნიმუშის „აკუსტიკური გარემოს“ სიმულაციაც. მაგალითად, თუ ნიმუში მიღებულია სატელეფონო საუბრის შედეგად, სინთეზირებული აუდიო გამომავალი იქნება სატელეფონო საუბრის აკუსტიკური და სიხშირის თვისებების სიმულაცია. ასევე ნიმუშები Microsoft აჩვენეთ, რომ VALL-E-ს შეუძლია ვოკალური ტემბრის ვარიაციების გენერირება.

Microsoft AI VALL-E

შესაძლოა, VALL-E-ის უნარის გამო პოტენციურად ხელი შეუწყოს თაღლითობასა და მოტყუებას, Microsoft არ მოგვაწოდა VALL-E კოდი სხვებისთვის ექსპერიმენტებისთვის, ამიტომ ჩვენ ვერ შევძლებთ მისი შესაძლებლობების შემოწმებას. როგორც ჩანს, მკვლევარებმა იციან პოტენციური სოციალური ზიანის შესახებ, რომელიც ამ ტექნოლოგიამ შეიძლება მოიტანოს. სტატიის დასასრულში ისინი წერენ:

იმის გამო, რომ VALL-E-ს შეუძლია მეტყველების სინთეზირება, რომელიც ინარჩუნებს სპიკერის იდენტურობას, მას შეუძლია მოჰყვეს მოდელის ბოროტად გამოყენების პოტენციური რისკები, როგორიცაა ხმის იდენტიფიკაციის გაყალბება ან კონკრეტული სპიკერის განსახიერება. ასეთი რისკების შესამცირებლად, აშენდება ამოცნობის მოდელი, რათა განასხვავოთ, იყო თუ არა აუდიო კლიპის სინთეზირებული VALL-E გამოყენებით.

თქვენ შეგიძლიათ დაეხმაროთ უკრაინას რუსი დამპყრობლების წინააღმდეგ ბრძოლაში. ამის საუკეთესო გზაა უკრაინის შეიარაღებული ძალებისთვის თანხების შემოწირულობა Savelife ან ოფიციალური გვერდის საშუალებით NBU.

ასევე წაიკითხეთ:

ჯერილოარტექნიკა
დარეგისტრირდით
შეატყობინეთ შესახებ
სასტუმრო

0 კომენტარები
ჩაშენებული მიმოხილვები
ყველა კომენტარის ნახვა
სხვა სტატიები
გამოიწერეთ განახლებები
პოპულარული ახლა