В последние годы мы добились многого в попытках научить компьютер понимать, что он видит. Тем не менее, что касается оценки качества и эстетической привлекательности, то тут мы столкнулись с большими сложностями. Сложностями, которые Google смог-таки побороть.

Можно понять, как ИИ разберётся в том, является ли картинка некачественной: артефакты, размытие, признаки сжатия – всё это распознать не так уж и сложно. Но как объяснить эстетику? Как найти алгоритм, который сможет понимать, какие эмоции вызывает картинка, и является ли она красивой?

Для этого Google долго и усердно учил свёрточные нейронные сети на примерах самых разных картинок – например, эффектных пейзажей. Но такой подход оказался недостаточно сложным, ведь так картинки можно классифицировать лишь по двум типам – качественная и некачественная. Новая система, которую изобрели в компании, отличается, и предлагает присуждать каждому изображению рейтинги. Это позволит добиться более детальной оценки качества картинки.

Как же добиться от компьютера такого? Тут на сцену выходит NIMA – Нейронная оценка изображения. Это свёрточная нейронная сеть, которая обучена предсказывать, какая картинка нам понравится, и получит от нас высокую оценку как касательно объективного качества, так и эстетической привлекательности. NIMA существует благодаря успешным нейронным сетям, ответственным за распознание объектов. Благодаря им система понимает, что находится на картинке, что, в свою очередь, позволяет категорировать изображение по разным факторам.

Новая технология, созданная в Google, позволит не только присуждать картинкам умную оценку, но и облегчить множество сложных и трудоёмких задач, вроде редактирования фото, оптимизации качества и «починки» заметных артефактов.

Как же NIMA будет присуждать картинкам рейтинги? Если выражаться проще, то есть два подхода. Первый пользуется существующими примерами «идеальной» картинки, и основывает свои выводы на них. Второй работает «вслепую», и основывает свои выводы на статистических моделях. Обе подхода существует для одной цели: оценить качество картинки, которое коррелировалось бы с восприятием человека. В этом помогает возможность распознать объект на снимке, используя уже существующие базы данных вроде ImageNet.

Нейронная оценка изображения

Типичная оценка эстетической привлекательности изображения позволяет присудить картинке либо высокий, либо низкий рейтинг, но нейронная оценка изображения полагается на гистограмму человеческих рейтингов, а не просто двоичную систему оценки. Гистограмма позволяет понять общий рейтинг картинки, и соотносит мнение разных людей. NIMA не называет картинку либо плохой, либо хорошей, а создаёт примерный рейтинг от 1 до 10. Это система помогает с большей эффективностью предсказать реакцию человека, и более эффективна, чем любая другая.

Для того, чтобы понять, работает ли технология, нужно провести практический тест. Для этого исследователи использовали фотографии, участвовавшие в конкурсах. NIMA оценила каждую фотографию в соответствии со своими критериями, и присвоила им рейтинг. Как оказалось, её оценка красоты и качества оказалась примерно такой же, что и человеческая. При этом тест был проведён несколько раз, с успешными результатами.

NIMA также умеет оценивать качество в сравнении. Она правильно оценила уровень качества одной картинки. Лучшей оказалась фотография без искажений, худшей – изображение с огромной потерей качества из-за сжатия.

Улучшение изображений

Исследователи заинтересованы не только в оценочных способностях системы, но и в том, как она может применить свои знания, чтобы сделать изображения лучше. Если она знает, какая картинка скорее всего понравится человеку, то что мешает ей самой её усовершенствовать? Ответ: ничего.

В следующих примерах показано, как NIMA использовала свои знания, чтобы сделать фотографии более привлекательными для человека. По мнению алгоритма, картинка становится лучше при модификации контраста. Также система сама настроила параметры яркости, насыщенности и теней.

Что дальше?

Разработка NIMA даёт понять, что у подобной технологии есть множество практических применений. Например, из сотни картинок система может отобрать самую лучшую. NIMA может стать помощником, который в реальном времени будет комментировать потенциальный снимок. Система сможет проводить в порядок огромное число изображений в короткий срок. NIMA станет грамотным (хоть и не совершенным) способом оценить фотографии, предсказывая реакцию зрителя.

Источник: Google Research Blog