Представете си, че сте попаднали на съобщение, което може да съдържа животоспасяваща информация. Но има проблем: не разбирате нито дума. Дори не сте сигурни на кой от хилядите езици по света е написано. какво ще направиш Ако съобщението е написано на английски или френски, въвеждането му в системата за автоматичен превод незабавно разрешава загадката и дава надежден отговор на вашия език. Но много други езици остават непреводими, включително езици, говорени от милиони хора като Wolof, Luganda, Twi и Ewe в Африка. Това е така, защото алгоритмите, които захранват тези машини, са обучени на човешки преводи – в идеалния случай – на милиони думи от преведен текст.
Има изобилие от такъв материал за общи езици като английски, френски, испански или немски, благодарение на многоезичните държавни и търговски агенции, чиито човешки преводачи създават потоци от преведени преписи и други документи. Такава планина от данни обаче не съществува за езици, които може да са широко разпространени, но не толкова широко превеждани. Те са известни като езици с ограничен ресурс. пример, Google В момента Translate предлага възможност за комуникация на приблизително 108 различни езика. В света обаче има повече от 7 говорими езика и поне 4 езика с писмена система. Тази езикова бариера може да се превърне в проблем за всеки, който трябва спешно да събере точна глобална информация, включително разузнавателните служби.
Изследователи от Лабораторията за компютърни науки и изкуствен интелект (CSAIL) на Масачузетския технологичен институт са били вдъхновени да вдъхнат нов живот на мъртвите езици с помощта на машинно обучение. Тяхната нова система може автоматично да дешифрира изгубени езици, които иначе не могат да бъдат разбрани, и може да го направи, без да изисква задълбочени познания за връзката им с ранните форми на други езици. Вече беше обявено, че тяхното изследване на тема „Превод на изгубени езици с помощта на машинно обучение“ е обявено за един от победителите в наградата Netexplo 2021 в партньорство с ЮНЕСКО.
Също интересно: Издадени слушалки Timekettle WT2 Edge с двупосочен превод на 40 езика
Обсерваторията Netexplo се фокусира върху „революционни цифрови иновации, които могат да имат дълбоко и дългосрочно въздействие върху цифровото общество днес и утре“.
Професорът от Масачузетския технологичен институт Реджина Барзилай и завършилият студент от Масачузетския технологичен институт Джиамин Луо постигнаха голям напредък в областта: нова система, за която е доказано, че може автоматично да дешифрира изгубен език, без да изисква задълбочени познания за връзките му с други езици. Те също така показаха, че тяхната система може сама да определи връзката между езиците и я използваха, за да потвърдят скорошни изследвания, предполагащи, че иберийският всъщност не е свързан с баския.
„За недешифрираните езици в реалния живот познаването на сродни езици е решаваща стъпка по пътя към дешифрирането. Нашият модел може да генерира показател за „близост“, който измерва доколко съвпадат два речника“, казва Луо. „В по-широк план вярвам, че изкуственият интелект (AI) може да се възползва от развитието в други области. И обратното, тъй като фундаменталните научни и човешки изследвания също могат да се възползват от иновациите в изкуствения интелект.“ Барзилай и Луо говориха за работата си на форума Netexplo Innovation 2021.
Прочетете също:
- Google представи езика за програмиране Logica
- Microsoft Преводачът добавя поддръжка за девет допълнителни езика