Метагийн ярианы хиймэл оюун ухаан нь 4 гаруй ярианы хэлийг таньдаг

Мета ChatGPT клон биш AI хэлний загварыг бүтээсэн. Компанийн Massively Multilingual Speech (MMS) төсөл нь 4 гаруй ярианы хэлийг таньж, 000 гаруй хэлээр яриаг (текстээс яриа) хуулбарлах боломжтой. Олон нийтэд зарласан хиймэл оюун ухааны төслүүдийнхээ нэгэн адил Мета өнөөдөр хэл шинжлэлийн олон янз байдлыг хадгалах, судлаачдыг хөгжүүлэхэд нь туслах зорилгоор MMS нээлттэй хандалтыг бий болгож байна. "Өнөөдөр бид судалгааны нийгэмлэгийн бусад гишүүд бидний ажил дээр тулгуурлан ажиллахын тулд загвар, кодоо олон нийтэд түгээж байна" гэж компани бичжээ. "Энэ ажлын ачаар бид дэлхийн хэлний гайхалтай олон янз байдлыг хадгалахад бага ч гэсэн хувь нэмэр оруулна гэж найдаж байна."

Яриа таних болон текстээс ярианы загварууд нь ихэвчлэн транскрипцийн шошготой олон мянган цагийн аудио бичлэг дээр сургалт шаарддаг. Гэвч ойрын хэдэн арван жилд устах аюулд орсон аж үйлдвэржсэн орнуудад төдийлөн ярьдаггүй хэлнүүдийн хувьд "энэ мэдээлэл огт байхгүй" гэж Мета хэлэв.

Мета аудио мэдээлэл цуглуулах уламжлалт бус арга барилыг ашигласан: орчуулсан шашны текстүүдийн аудио бичлэгийг сонсох. "Бид Библи зэрэг олон хэлээр орчуулагдсан шашны бичвэрүүдэд хандсан бөгөөд орчуулгыг нь текстэд суурилсан орчуулгын судалгаанд өргөнөөр судалсан" гэж компани хэлэв. "Эдгээр орчуулгууд нь эдгээр текстийг өөр өөр хэлээр уншиж буй хүмүүсийн аудио бичлэгийг олон нийтэд нээлттэй болгосон." Мета судлаачид Библи болон үүнтэй төстэй бичвэрүүдийн тэмдэглэгээгүй оруулгуудыг оруулснаар загварт ашиглах боломжтой хэлний тоог 4 гаруй болгож нэмэгдүүлсэн.

"Хэдийгээр аудио бичлэгийн агуулга нь шашин шүтлэгтэй байсан ч энэ нь загвар өмсөгчийг илүү шашны яриа гаргахад нөлөөлөхгүй гэдгийг бидний дүн шинжилгээ харуулж байна" гэж Мета бичжээ. "Бид үүнийг холболтын цаг хугацааны ангилал (CTC) ашигладаг учраас том хэлний загвар (LLM) эсвэл яриа таних дарааллын загвартай харьцуулахад хамаагүй хязгаарлагдмал байдаг гэж бид үзэж байна." Түүнчлэн, шашны зохиолуудын ихэнхийг эрэгтэйчүүд уншдаг байсан ч энэ нь эрэгтэйчүүдийг ялгаварлан гадуурхахад хүргэсэнгүй - систем нь эмэгтэй, эрэгтэй дуу хоолойг хоёуланг нь адилхан хүлээн зөвшөөрдөг.

Өгөгдлийг илүү ашиглах боломжтой болгохын тулд тэгшитгэх загварыг сургасны дараа Мета шошгогүй өгөгдөл дээр суралцах боломжтой wav2vec 2.0 компаний "өөрийгөө хянадаг хэлний төлөөлөл сурах" загварыг ашигласан. Уламжлалт бус өгөгдлийн эх сурвалж болон өөрөө удирдах ярианы загварыг хослуулсан нь гайхалтай үр дүнд хүргэсэн. "Бидний үр дүнгээс харахад олон хэлээр олон нийтийн өргөн нэвтрүүлгийн загварууд одоо байгаа загваруудтай харьцуулахад сайн ажиллаж, 10 дахин илүү хэлийг хамардаг." Ялангуяа Мета MMS-ийг OpenAI-ийн Whisper-тэй харьцуулсан бөгөөд үр дүн нь хүлээлтээс давсан байна. "Олон хэлтэй ярианы өгөгдөл дээр бэлтгэгдсэн загварууд үгийн алдааны тал хувьтай байдаг ч Massively Multilingual Speech нь 11 дахин их хэлийг хамардаг болохыг бид олж мэдсэн."

Мета шинэ загварууд нь төгс биш гэдгийг анхааруулав. "Жишээ нь, ярианаас текст рүү шилжих загвар нь бие даасан үг, хэллэгийг буруу орчуулах эрсдэлтэй" гэж компани бичжээ. “Үр дүнгээс хамааран энэ нь доромжилсон болон/эсвэл буруу хэллэгт хүргэж болзошгүй. Хиймэл оюун ухааны нийгэмлэгийн хамтын ажиллагаа нь AI технологийг хариуцлагатай хөгжүүлэхэд чухал ач холбогдолтой гэдэгт бид итгэдэг."

Одоо Мета нь нээлттэй эх сурвалжийн судалгаанд зориулж MMS-ийг гаргасан бөгөөд ихэнх нь гол технологиор дэмжигддэг дэлхийн хэлний тоог 100 буюу түүнээс цөөн тоо болгон бууруулах хандлагыг эргүүлнэ гэж найдаж байна. Тэрээр туслах технологи, TTS, тэр байтугай VR / AR технологи нь хүн бүр эх хэлээрээ ярьж, сурах боломжийг олгодог ертөнцийг хардаг. Энэ нь: "Бид эх хэлээрээ ярьж байхдаа мэдээлэл олж авах, технологийг ашиглах боломжтой учраас хүмүүс хэлээ амьд байлгахыг уриалж, технологи нь эсрэгээрээ нөлөө үзүүлдэг ертөнцийг төсөөлж байна."

Мөн уншина уу:

Эх сурвалжEngadget

Бүртгүүлэх

0 Сэтгэгдэл

Суулгасан тойм

Бүх сэтгэгдлийг харах

Бусад нийтлэлүүд

Метагийн ярианы хиймэл оюун ухаан нь 4 гаруй ярианы хэлийг таньдаг

Сүүлийн үеийн сэтгэгдлүүд