Дослідники Apple розробили систему штучного інтелекту під назвою ReALM (Reference Resolution as Language Modeling), яка має на меті радикально покращити те, як голосові помічники розуміють і реагують на команди.
У дослідницькій статті Apple описує нову систему того, як великі мовні моделі вирішують проблему роздільної здатності посилань, що включає в себе розшифровку неоднозначних посилань на екранні об’єкти, а також розуміння розмовного та фонового контексту. Як результат, ReALM може призвести до інтуїтивнішої та природної взаємодії з пристроями.
Розпізнавання посилань є важливою частиною розуміння природної мови, дозволяючи користувачам без плутанини використовувати займенники та інші непрямі посилання в розмові. Для цифрових асистентів ця здатність історично була значною проблемою, обмежена необхідністю інтерпретувати широкий спектр вербальних сигналів і візуальної інформації. Система ReALM від Apple прагне вирішити цю проблему, перетворюючи складний процес розпізнавання посилань на завдання чистого мовного моделювання. Таким чином, вона може розуміти посилання на візуальні елементи, що відображаються на екрані, та інтегрувати це розуміння в розмовний потік.
ReALM реконструює візуальну структуру екрана, використовуючи текстові представлення. Це включає в себе розбір екранних об’єктів та їх розташування для створення текстового формату, який відображає зміст і структуру екрана. Дослідники Apple виявили, що ця стратегія, у поєднанні зі спеціальним налаштуванням мовних моделей для задач еталонної роздільної здатності, значно перевершує традиційні методи, включаючи можливості GPT-4 від OpenAI.
ReALM може дозволити користувачам набагато ефективніше взаємодіяти з цифровими помічниками, спираючись на те, що в даний момент відображається на екрані, без необхідності в точних, детальних інструкціях. Це може зробити голосових помічників набагато кориснішими в різних ситуаціях, наприклад, допомагаючи водіям орієнтуватися в інформаційно-розважальних системах під час руху або допомагаючи користувачам з обмеженими можливостями, надаючи простіші та точніші засоби непрямої взаємодії.
Apple вже опублікувала кілька дослідницьких робіт у галузі ШІ. Минулого місяця компанія представила новий метод навчання великих мовних моделей, який легко інтегрує як текстову, так і візуальну інформацію. Очікується, що Apple представить цілу низку функцій штучного інтелекту на конференції WWDC у червні.
Читайте також: