วันเสาร์ที่ 27 เมษายน 2024

เดสก์ท็อป v4.2.1

Root Nationข่าวข่าวไอทีAI คำพูดของ Meta จดจำภาษาพูดได้มากกว่า 4 ภาษา

AI คำพูดของ Meta จดจำภาษาพูดได้มากกว่า 4 ภาษา

-

Meta สร้างโมเดลภาษา AI ที่ไม่ใช่ ChatGPT โคลน โครงการ Massively Multilingual Speech (MMS) ของบริษัทสามารถจดจำภาษาพูดได้มากกว่า 4 ภาษา และสร้างคำพูด (ข้อความเป็นคำพูด) ได้มากกว่า 000 ภาษา เช่นเดียวกับโครงการ AI ส่วนใหญ่ที่ประกาศต่อสาธารณะ วันนี้ Meta ทำให้การเข้าถึง MMS แบบเปิดเพื่อช่วยรักษาความหลากหลายทางภาษาและกระตุ้นให้นักวิจัยพัฒนา "วันนี้เรากำลังแชร์โมเดลและโค้ดของเราต่อสาธารณะ เพื่อให้สมาชิกคนอื่นๆ ของชุมชนการวิจัยสามารถสร้างผลงานของเราได้" บริษัทเขียน "ต้องขอบคุณงานนี้ เราหวังว่าจะได้มีส่วนร่วมเล็กน้อยในการอนุรักษ์ความหลากหลายทางภาษาที่น่าทึ่งของโลก"

Meta

การรู้จำเสียงและโมเดลการอ่านออกเสียงข้อความโดยทั่วไปต้องการการฝึกอบรมในการบันทึกเสียงหลายพันชั่วโมงพร้อมป้ายกำกับการถอดความ แต่สำหรับภาษาที่ไม่ได้พูดกันอย่างแพร่หลายในประเทศอุตสาหกรรม ซึ่งหลายภาษากำลังเสี่ยงต่อการสูญพันธุ์ในอีกไม่กี่ทศวรรษข้างหน้า “ข้อมูลนี้ไม่มีอยู่จริง” Meta กล่าว

Meta ใช้วิธีการที่แปลกใหม่ในการรวบรวมข้อมูลเสียง: ฟังการบันทึกเสียงของข้อความทางศาสนาที่แปลแล้ว “เราหันไปหาข้อความทางศาสนา เช่น คัมภีร์ไบเบิล ซึ่งได้รับการแปลเป็นภาษาต่างๆ มากมาย และคำแปลที่ได้รับการศึกษาอย่างกว้างขวางสำหรับการวิจัยการแปลตามข้อความ” บริษัทกล่าว "การแปลเหล่านี้มีการบันทึกเสียงของผู้คนที่อ่านข้อความเหล่านี้ในภาษาต่างๆ" ด้วยการรวมรายการที่ไม่มีเครื่องหมายจากพระคัมภีร์ไบเบิลและข้อความที่คล้ายกัน นักวิจัย Meta ได้เพิ่มจำนวนภาษาที่มีในโมเดลเป็นมากกว่า 4 ภาษา

"แม้ว่าเนื้อหาของการบันทึกเสียงจะเป็นเรื่องเกี่ยวกับศาสนา แต่การวิเคราะห์ของเราแสดงให้เห็นว่าสิ่งนี้ไม่ส่งผลกระทบต่อการผลิตคำพูดทางศาสนามากขึ้นของโมเดล" Meta เขียน "เราเชื่อว่านี่เป็นเพราะเราใช้วิธีการจำแนกชั่วคราว (CTC) แบบเชื่อมต่อซึ่งจำกัดกว่ามากเมื่อเทียบกับโมเดลภาษาขนาดใหญ่ (LLM) หรือโมเดลลำดับสำหรับการรู้จำเสียง" นอกจากนี้ แม้ว่าข้อความทางศาสนาส่วนใหญ่อ่านโดยผู้ชาย แต่สิ่งนี้ไม่ได้นำไปสู่อคติของผู้ชาย – ระบบจดจำเสียงของทั้งผู้หญิงและผู้ชายได้ดีพอๆ กัน

หลังจากฝึกโมเดลการจัดตำแหน่งเพื่อทำให้ข้อมูลใช้งานได้มากขึ้น Meta ได้ใช้ wav2vec 2.0 ซึ่งเป็นโมเดล "การเรียนรู้การแสดงภาษาด้วยตนเอง" ของบริษัทที่สามารถเรียนรู้จากข้อมูลที่ไม่มีป้ายกำกับ การรวมกันของแหล่งข้อมูลที่ไม่ใช่แบบดั้งเดิมและแบบจำลองคำพูดที่กำกับตนเองทำให้เกิดผลลัพธ์ที่น่าประทับใจ "ผลลัพธ์ของเราแสดงให้เห็นว่ารูปแบบการแพร่ภาพหลายภาษาจำนวนมากทำงานได้ดีเมื่อเทียบกับรุ่นที่มีอยู่และครอบคลุมภาษามากกว่า 10 เท่า" โดยเฉพาะอย่างยิ่ง Meta เปรียบเทียบ MMS กับ Whisper ของ OpenAI และผลลัพธ์เกินความคาดหมาย "เราพบว่าโมเดลที่ได้รับการฝึกฝนเกี่ยวกับข้อมูลคำพูดหลายภาษาจำนวนมากมีข้อผิดพลาดของคำเพียงครึ่งเปอร์เซ็นต์ แต่คำพูดหลายภาษาจำนวนมากครอบคลุมภาษามากกว่า 11 เท่า"

Meta เตือนว่าโมเดลใหม่นั้นไม่สมบูรณ์แบบ "ตัวอย่างเช่น มีความเสี่ยงที่แบบจำลองคำพูดเป็นข้อความอาจแปลคำหรือวลีแต่ละคำไม่ถูกต้อง" บริษัทเขียน “ขึ้นอยู่กับผลลัพธ์ สิ่งนี้อาจนำไปสู่การใช้ภาษาที่ไม่เหมาะสมและ/หรือไม่ถูกต้อง เรายังคงเชื่อว่าการทำงานร่วมกันภายในชุมชน AI มีความสำคัญต่อการพัฒนาเทคโนโลยี AI อย่างรับผิดชอบ”

Meta

ตอนนี้ Meta ได้เปิดตัว MMS สำหรับการวิจัยแบบโอเพ่นซอร์สแล้ว โดยหวังที่จะพลิกกลับแนวโน้มการลดจำนวนภาษาในโลกให้เหลือเพียง 100 ภาษาหรือน้อยกว่า ซึ่งส่วนใหญ่รองรับโดยเทคโนโลยีหลักๆ เธอเห็นโลกที่เทคโนโลยีอำนวยความสะดวก TTS และแม้กระทั่งเทคโนโลยี VR / AR ช่วยให้ทุกคนสามารถพูดและเรียนรู้ในภาษาแม่ของตนได้ มันบอกว่า: "เราจินตนาการถึงโลกที่เทคโนโลยีให้ผลตรงกันข้าม กระตุ้นให้ผู้คนรักษาภาษาของตนให้คงอยู่ เพราะพวกเขาสามารถเข้าถึงข้อมูลและใช้เทคโนโลยีในขณะที่พูดภาษาแม่ของตนได้"

อ่านเพิ่มเติม:

DzhereloEngadget
ปิ๊ดปิซาติเซียน
แจ้งเตือนเกี่ยวกับ
ผู้เข้าพัก

0 ความคิดเห็น
บทวิจารณ์แบบฝัง
ดูความคิดเห็นทั้งหมด
สมัครรับข้อมูลอัปเดต