Bigme KIVI KidsTV
Categories: Новини IT

Google Перекладач додає 110 нових мов, включно із кримськотатарською

Google Перекладач руйнує мовні бар’єри та допомагає людям спілкуватися. Розробники постійно впроваджують новітні технології, щоб якомога більше людей могли скористатися цим інструментом. “У 2022 році ми додали 24 нові мови, використовуючи підхід Zero-Shot Machine Translation, де модель машинного навчання вчиться перекладати на іншу мову, навіть якщо не бачить прикладу”, – повідомили в компанії та нагадали про ініціативу “1000 мов”. Вона передбачає створення AI-моделей, які підтримуватимуть 1000 найпоширеніших мов світу.

“Сьогодні ми використовуємо штучний інтелект, щоб розширити різноманітність мов, які ми підтримуємо, – говорять у Google. – Завдяки нашій великій мовній моделі PaLM 2 ми починаємо додавати 110 нових мов до Google Перекладача, що є найбільшим розширенням за всю історію”.

На мовах від кантонської до кекчі розмовляють понад 614 млн носіїв, таким чином доступ до перекладу отримають приблизно 8% населення світу. Деякі з цих мов є одними з найбільших, і на них розмовляють понад 100 млн носіїв. Іншими мовами розмовляють невеликі громади корінних народів. Деякі майже не мають носіїв, але робляться активні кроки щодо їхнього відродження. “Близько чверті нових мов походять з Африки, що є нашим найбільшим розширенням африканських мов на сьогодні, зокрема фон, кіконго, луо, га, сваті, венда та волоф”, – додають в компанії.

Ось деякі з нових мов, які будуть підтримуватись в Google Перекладачі:

  • Афар – це тональна мова, якою розмовляють у Джибуті, Еритреї та Ефіопії. З усіх мов, запущених цього разу, афар мала найбільший внесок від спільноти волонтерів
  • Кантонська мова – це одна з найбільш запитуваних мов для Google Перекладача. Щоправда, з нею є певні складності, оскільки на письмі вона часто перетинається з мандаринською, що ускладнює пошук даних та навчання моделей
  • Кримськотатарська мова – тюркська мова, рідна мова кримських татар. Сьогодні вона належить до переліку мов, що потребує додаткового захисту за класифікацією UNESCO. У січні 2023 року в Україні створили Національну комісію з питань кримськотатарської мови, що має її захищати
  • Менська – це кельтська мова острова Мен. Вона мало не зникла зі смертю останнього носія у 1974 році, але завдяки руху з відродження мови на острові зараз нею розмовляють тисячі людей
  • Нко – це стандартизована форма західноафриканських мов мандінка, яка об’єднує багато діалектів в одну спільну мову. Її унікальний алфавіт був винайдений у 1949 році, і сьогодні вона має активну дослідницьку спільноту
  • Панджабі (Шахмукхі) – це різновид панджабі, що пишеться персько-арабським письмом (шахмукхі). Вона є найпоширенішою мовою в Пакистані
  • Тамазігська мова (амазігська) – це берберська мова, якою розмовляють у Північній Африці. Хоча існує багато діалектів, письмова форма, як правило, взаємнозрозуміла. Вона пишеться латинським письмом та письмом тифінаг, і Google Перекладач підтримує обидва
  • Ток-пісін – це креольська мова на основі англійської. Вона є мовою міжнаціонального спілкування у Папуа-Нової Гвінеї.

Коли розробники додають нові мови до Перекладача, то враховують багато факторів – від того, які різновиди мов пропонуються, до того, які конкретні варіанти написання використовуються.

Мови мають величезну кількість варіацій: регіональні різновиди, діалекти, різні стандарти орфографії. А частина мов навіть не мають жодної стандартної форми. “Наш підхід полягає в тому, щоб надавати пріоритет найбільш вживаним різновидам кожної мови, – говорять у Google. – Наприклад, ромська мова має багато діалектів по всій Європі. Наші моделі створюють текст, найближчий до південно-влахської ромської, різновиду, який широко використовується в Інтернеті. Але він також містить елементи з інших діалектів, таких як північно-влахська та балканська ромська”.

PaLM 2 є ключовим елементом системи. Модель допомагає Перекладачу ефективніше вивчати мови, тісно пов’язані одна з одною, зокрема мови, близькі до хінді, як-от авадхі та марваді, і французькі креольські, як-от сейшельська креольська та маврикійська креольська. З часом застосунок підтримуватиме більше мовних різновидів і правил правопису.

Читайте також:

Share
Svitlana Anisimova

Канцелярська маніячка, шалена читачка, люблю все, в чому є борошно, цукор та любовна лінія. На 80% складаюся з guilty pleasure.

Leave a Reply

Your email address will not be published. Required fields are marked*