Легко ли можно распознать фальшивые фотографии? Поверьте, не все так просто в современных реалиях. Это доказывает новое исследование от Microsoft.
Американская корпорация провела масштабное исследование и деликатно намекнула на то, что мы — слепые котята в мире искусственного зрения. Оказывается, большинство из нас может правильно определить где настоящее фото, а где произведение искусственного интеллекта лишь чуть более чем в половине случаев. То есть, если реальность — это игра, то мы уже проиграли на стадии загрузки.
Чтобы не оставить нас в сладком неведении, компания запустила онлайн-викторину «Real or Not?». Пользователям дали 15 попыток отгадать: они смотрят на фотографию или на плод электронной фантазии. Нет, это не просто развлечение в стиле «угадай мем», а попытка показать — дипфейки уже давно не экзотика, а рутина вашей ленты.

Параллельно с викториной провели опрос, в котором приняли участие более 12,5 тысяч человек со всего мира. В общем — 287 тысяч индивидуальных решений, каждое из которых показывало одно: человечество, похоже, переигрывает искусственный мозг даже на начальном уровне сложности со средним результатом 62%. Не впечатляет, учитывая то, что это лишь на несколько процентов лучше банального угадывания наугад.
Это, мягко говоря, не просто звоночек — это пожарная сирена. Пока мы самоуверенно считаем себя технологически подкованными, нейросети уже рисуют портреты, которые обманывают и профессионалов. И с каждым новым апдейтом эти системы становятся менее «искусственными» и более убедительными, чем любой инстаграм-фильтр.
Также интересно: Криптография: Что это такое и как работает
СОДЕРЖАНИЕ СТАТЬИ:
«Real or Not?» — викторина, которая разоблачает иллюзии
Новая викторина от Microsoft посвящена глубокофейным изображениям, и мы все еще не способны их отличить. Старт был безобидным: милый песик на странице Брэда Смита в LinkedIn. Казалось бы, классический понедельничный кликбейт, призванный собрать пару сотен лайков и чуточку окситоцина. Но нет. Это была визуальная ловушка с подсказкой.

Снимок четвероногого, оказывается, не имел ничего общего с реальностью, кроме искусно сгенерированного меха. Сам Смит не просто начал неделю с мимишной картинки. Таким образом он запустил рекламную кампанию новой инициативы Microsoft. Онлайн-викторины, которая проверяет, сможете ли вы отличить настоящее изображение от глянцевой выдумки искусственного интеллекта.
Сама идея — как будто из будущего, где правду приходится доказывать. Но суть в том, что даже перед лицом очевидного фейка, мы смотрим, моргаем и жмем лайк. Потому что мозг еще не обновил прошивку под новые правила игры, где изображение больше не гарантирует правды. И теперь даже собака на LinkedIn — потенциальная галлюцинация из глубины нейронной сети.
Формула игры выглядит гениально простой: смотришь, щелкаешь, переходишь к следующему кадру. Все как в Тиндере — только вместо потенциального свидания тебе подсовывают потенциальный фейк. Но как только эмоции улеглись, большинство участников обнаруживают болезненную истину: их знаменитая интуиция — это мыльный пузырь. Особенно когда речь идет о чем-то невинном, как закат над крышами города — привычный, стерильный кадр, который, казалось бы, ничего не скрывает.

Авторы викторины намеренно не играли с нами в оптические иллюзии. В наборе — все как в жизни: любительские снимки вперемешку с картинками от Midjourney и DALL-E 3. Без сцен штурма средневекового Лувра марсианами или гипердетального портрета бабушки с глазами как у совы. Просто обыденность — город, природа, портреты, еда, предметы быта. Все то, что вы и так видите каждый день в соцсетях даже не задумываясь: это реальность или уже произведение фантазии искусственного интеллекта?
Каждый участник получал до десятка кадров, выбранных так, чтобы покрыть все основные категории. Алгоритм тщательно следил, чтобы все имели равные шансы — никакого фаворитизма, только ты и твой внутренний детектор лжи.

Но, несмотря на это, стандартное отклонение было крошечным: большинство застряло в коридоре 55-70%. Другими словами, независимо от того, ты условный эксперт по Photoshop или просто человек, который отличает кошку от собаки со второй попытки — твой шанс распознать дипфейк не сильно лучше бросания монеты. Никакого «тайного класса просветленных», видящих сквозь пиксели, не обнаружено. Даже те, кто ежедневно «улучшает яркость и контрастность», фейлят на равных с далеким от технологий Павлом из соседнего подъезда.
Также интересно: Третья война браузеров: Уже началась?
Портреты даются легко, пейзажи почти как настоящие
Казалось бы, лица — наша специализация. Эволюция не зря вложила миллионы лет в то, чтобы мы считывали эмоции еще до того, как человек откроет рот. Узнать страх, агрессию или фальшивую улыбку — это то, что спасало жизнь задолго до появления смартфонов. Поэтому неудивительно, что портреты стали самой простой категорией в викторине. Хотя и здесь 35% ошибок — это не триумф человечества, а скорее мягкое фиаско.
А вот с пейзажами и городскими панорамами все значительно интереснее — то есть, печальнее. Когда вы смотрите на фото дрона над заснеженным фьордом или ночной город с неоновыми вывесками, мозг включает режим «о, красиво!» и выключает критическое мышление. Потому что проверить, правильно ли отображена география Гонконга ночью, является задачей не из раздела «интуиция», а из категории «должно быть что-то подобное в Google». Результат катастрофический. Большинство людей ошибается. И ошибается не потому, что глупы, а потому, что наш визуальный аппарат заточен под выживание в джунглях, а не под распознавание фейковых небоскребов, созданных Midjourney.
И хотя изображения могут быть нереальными, мы видим в них «что-то знакомое». А знакомое всегда значит настоящее. Так и работает когнитивная ловушка: наше видение настроено на быстрый обзор, а не на микроскопическую проверку деталей. Все, что не кричит об ошибке, всегда автоматически проходит сквозь фильтр. Поэтому мы не замечаем, что вывеска на здании написана на языке эльфов, а тени падают под неправильным углом.
Посмотрите, ни одна из этих фотографий не является настоящей, это все творение искусственного интеллекта:

А теперь добавьте к этому цейтнот. В викторине люди тыкали ответы за 2-3 секунды, как в старой флеш-игре. Когда исследователи позволили рассмотреть кадры чуть дольше, до 10 секунд, то точность выросла аж на 8 пунктов. Но кто так смотрит фото в реальной жизни? У нас на это есть меньше времени, чем на просмотр чужой сторис. Два свайпа и ты уже эксперт по пейзажной фотографии.
И именно с этим уровнем внимания мы с той же самоуверенностью ставим лайки, репостим «фотографию с Марса» и ссоримся в семейном чате о правдивости фотки с якобы разрушенной больницы. Потому что мы не проверяем, а просто доверяем глазам. А глаза, как оказалось, давно уже не главный источник правды, а наоборот — ее самое слабое место.
Также интересно: Новая суперсила OpenAI: Что такое ChatGPT Agent
Алгоритмы против людей: кто побеждает?
Исследователи параллельно решили пойти на эксперимент. Если человек регулярно фейлит в распознавании изображений, то пусть машина попробует лучше. И выпустили в бой свой инструмент на основе гибрида статистических признаков (DCT, SRM) и семантических встроек CLIP. Результат — более 95% точности на той же выборке. То есть, пока Homo sapiens жмурится на фото заката и размышляет, действительно ли это Лиссабон, нейросеть без эмоций ставит галочку напротив «фейк» и идет дальше.
Но дело не только в точности. Главная проблема — это подрыв самой идеи подлинности. Если каждый кадр является потенциальным фейком, рано или поздно включается психологическая оборона: ничему не верю. А это уже обратный эффект, потому что если все «подозрительное», то настоящие фото тоже летят в помойку вместе с дипфейками. И здесь мы получаем идеальную среду для дезинформации, где не нужно даже создавать фейк. А достаточно поставить под сомнение все, что видим.
Вот какой малый процент людей догадались, что это настоящие фото:

Чтобы хоть как-то вернуть доверие, Microsoft, Adobe и с десяток других компаний пытаются продвинуть стандарт Content Credentials. Его суть очень проста: ввести криптографические подписи и «паспорт редактирования» прямо в метаданных файла. Если изображение было создано генеративной моделью, система автоматически вшивает метку C2PA, которую соцсети могут прочитать и предупредить пользователя: «Внимание, это не фото с iPhone, а фантазия искусственного интеллекта».
Другая идея — цифровые водяные знаки, которые встраиваются глубоко в пиксельную структуру, как невидимые татуировки. Они устойчивы к обрезанию, фильтрам и легкому редактированию. Но опять же, все только в теории. Потому что на практике стандартов этих водяных меток уже как минимум десяток, и каждая компания играет на своем аккордеоне. Один сервис читает только метки от Adobe, другой — только от Google, а большинство платформ вообще игнорирует все, потому что «не ко времени».
В итоге имеем классическую IT-какофонию: технология вроде бы есть, но без единого языка — это просто набор инструментов, играющих в разных тональностях. И пока индустрия не договорится, мы и дальше будем жить в реальности, где правда имеет меньше шансов, чем дипфейк с хорошим освещением и глубоким боке.
Также интересно: AI в медицине: Будущее уже здесь?
А что дальше?
Если вы до сих пор искренне верили, что «тренированный глаз» — это все, что нужно, чтобы вычислить компьютерную подделку, то вот вам ложка холодной статистики. Те самые 62% средней точности. То есть два промаха на каждые пять попыток. И это не во время просмотра в TikTok между перекусами, а в условиях контролируемого эксперимента. В реальной жизни все может быть еще хуже. Больше эмоций, меньше внимания, и никакого «извините, я посмотрю еще раз».
Технологии давно уже пересекли черту, за которой реальность является лишь еще одним стилем рендера. Среднестатистический пользователь, вооруженный самоуверенностью и допотопной интуицией, больше не имеет шансов. Без помощи то ли в виде алгоритмического детектора, то ли из-за привычки задавать вопросы вместо лайков, он становится легкой добычей генеративного разума.

И пока глобальные стандарты маркировки контента не перестанут быть темой для панельных дискуссий на конференциях, а станут чем-то банальным и встроенным, как влажная салфетка в фастфуде, остается одно: культура конструктивного недоверия. Не паранойи, не заговора против правды, а обычной цифровой осторожности. Потому что сегодня правда еще существует, но просто она больше не «очевидна с первого взгляда».
Поэтому будьте осторожны и внимательны в Сети, потому что, возможно, именно сейчас вы получили фото пейзажа, сгенерированного искусственным интеллектом.
Также интересно:
