Ви напевно бачили фантастичні фільми або телевізійні шоу, де головний герой просить збільшити зображення і поліпшити результат – показати обличчя, або номерний знак, або будь-яку іншу ключову деталь. Новітні системи штучного інтелекту (ШІ) Google, засновані на так званих дифузійних моделях, здатні виконати цей трюк.
Освоїти цей процес непросто, тому що, по суті, відбувається додавання деталей зображення, які камера спочатку не зафіксувала, за допомогою суперрозумних здогадок, заснованих на інших, схожих зображеннях.
В Google цю техніку називають синтезом природних зображень, а в даному конкретному сценарії – надвисокою роздільною здатністю зображення. Ви починаєте з маленької, піксельної фотографії, а в підсумку отримуєте щось різке, чітке і природнє. Воно може не повністю відповідати оригіналу, але воно досить близьке до того, щоб виглядати реальним для людських очей.
Компанія Google представила два нових інструменти ШІ для цієї роботи. Перший називається SR3, або Super-Resolution via Repeated Refinement, і він працює шляхом додавання шуму до зображення, а потім його видалення. Завдяки серії імовірнісних розрахунків на основі великої бази даних зображень і деякої магії машинного навчання, SR3 може уявити, як виглядає версія піксельного зображення низької роздільної здатності в надвисокій роздільній здатності.
Другий інструмент – CDM, або Cascaded Diffusion Models. Google описує їх як «конвеєри», за якими дифузійні моделі – включаючи SR3 – можуть бути спрямовані для високоякісного підвищення роздільної здатності зображення. Він бере моделі поліпшення і робить з них більші зображення.
Завдяки використанню різних моделей поліпшення при різних роздільних здатностях, підхід CDM здатний перевершити альтернативні методи збільшення розмірів зображень, стверджують в Google. Новий механізм штучного інтелекту був протестований на ImageNet, гігантській базі даних навчальних зображень, що зазвичай використовуються для досліджень в області візуального розпізнавання об’єктів.
Кінцеві результати роботи SR3 і CDM вражають. У стандартному тесті з участю 50 добровольців-людей зображення людських облич, що згенерували SR3, сприймалися за реальні фотографії приблизно в 50% випадків – а враховуючи, що ідеальний алгоритм повинен мав би досягти 50% результату, це вражає. Варто повторити, що ці поліпшені зображення не є точною відповідністю оригіналам, це ретельно розраховані симуляції, засновані на математиці ймовірності.
Google обіцяє набагато більше від своїх нових двигунів ШІ і пов’язаних з ними технологій – не тільки в плані збільшення зображень облич та інших природних об’єктів, але і в інших областях імовірнісного моделювання.
Читайте також:
Leave a Reply