Jak rozpoznać fałszywe zdjęcia

Czy łatwo jest rozpoznać fałszywe zdjęcia? Uwierz mi, w dzisiejszych realiach nie jest to takie proste. Dowodzi tego nowe badanie przeprowadzone przez Microsoft.

Amerykańska korporacja przeprowadziła zakrojone na szeroką skalę badanie i delikatnie zasugerowała, że jesteśmy ślepymi kociętami w świecie sztucznego widzenia. Okazuje się, że większość z nas potrafi poprawnie zidentyfikować prawdziwe zdjęcie i kreację AI tylko nieco ponad połowę czasu. Oznacza to, że jeśli rzeczywistość jest grą, to przegraliśmy już na etapie pobierania.

Aby nie pozostawiać nas w niepewności, firma uruchomiła quiz online o nazwie Real or Not? Użytkownicy mieli 15 prób odgadnięcia, czy patrzą na zdjęcie, czy na wytwór elektronicznej wyobraźni. Nie, to nie jest tylko gra typu „zgadnij mema”, ale próba pokazania, że podróbki nie są już egzotyczne, ale są stałym elementem Twojego kanału.

Równolegle z quizem przeprowadziliśmy ankietę z udziałem ponad 12,5 tysiąca osób z całego świata. W sumie przesłano 287 tysięcy indywidualnych rozwiązań, z których każde pokazało jedno: ludzkość wydaje się pokonywać sztuczny mózg nawet na początkowym poziomie trudności ze średnim wynikiem 62%. Nie jest to imponujące, biorąc pod uwagę, że jest to tylko o kilka procent lepsze niż banalne zgadywanie na chybił trafił.

Delikatnie mówiąc, to nie tylko sygnał alarmowy – to syrena alarmowa. Podczas gdy my arogancko uważamy się za technologicznie obeznanych, sieci neuronowe już rysują portrety, które oszukują nawet profesjonalistów. A z każdą nową aktualizacją systemy te stają się mniej „sztuczne” i bardziej przekonujące niż jakikolwiek filtr na Instagramie.

Również interesujące: Kryptografia: Czym jest i jak działa

TREŚĆ ARTYKUŁU:

„Real or Not?” – quiz, który demaskuje iluzje

Nowy quiz od Microsoftu poświęcony jest obrazom głęboko fałszywym, a my wciąż nie potrafimy ich odróżnić. Zaczęło się niewinnie: słodki pies na stronie LinkedIn Brada Smitha. Wydawało się, że to klasyczny poniedziałkowy clickbait, mający na celu zebranie kilkuset polubień i odrobiny oksytocyny. Ale nie. To była wizualna pułapka ze wskazówką.

Zdjęcie psa, jak się okazuje, nie miało nic wspólnego z rzeczywistością, poza umiejętnie wygenerowanym futrem. Sam Smith nie tylko rozpoczął tydzień z obrazem mimikry. Rozpoczął kampanię reklamową nowej inicjatywy Microsoftu. Quiz online, który sprawdza, czy potrafisz odróżnić prawdziwy obraz od błyszczącej kreacji sztucznej inteligencji.

Sam pomysł wydaje się pochodzić z przyszłości, gdzie prawda musi zostać udowodniona. Chodzi jednak o to, że nawet w obliczu oczywistych fałszywych wiadomości, patrzymy, mrugamy i lubimy to. Ponieważ mózg nie zaktualizował jeszcze swojego oprogramowania układowego do nowych zasad gry, w których obraz nie gwarantuje już prawdy. A teraz nawet pies na LinkedIn jest potencjalną halucynacją z głębi sieci neuronowej.

Formuła gry wygląda genialnie prosto: spójrz, kliknij, przejdź do następnej klatki. To zupełnie jak Tinder – tylko zamiast potencjalnej randki, podsuwa ci się potencjalną podróbkę. Ale gdy tylko emocje opadną, większość uczestników odkrywa bolesną prawdę: ich słynna intuicja to bańka. Zwłaszcza jeśli chodzi o coś tak niewinnego jak zachód słońca nad dachami miasta – znajomy, sterylny obraz, który wydaje się niczego nie ukrywać.

Autorzy quizu nie bawili się z nami celowo w złudzenia optyczne. Scenografia jest jak prawdziwa: amatorskie ujęcia mieszają się z obrazami z Midjourney i DALL-E 3. Żadnych scen średniowiecznego Luwru szturmowanego przez Marsjan czy hiperszczegółowego portretu staruszki o sowich oczach. Po prostu codzienne życie – miasto, natura, portrety, jedzenie, artykuły gospodarstwa domowego. Wszystko to, co widzisz każdego dnia w mediach społecznościowych, nie zastanawiając się nawet, czy są one prawdziwe, czy też są wytworem wyobraźni sztucznej inteligencji.

Każdy uczestnik otrzymał do kilkunastu zdjęć, wybranych tak, aby obejmowały wszystkie główne kategorie. Algorytm starannie zadbał o to, aby każdy miał równe szanse – bez faworyzowania, tylko ty i twój wewnętrzny wykrywacz kłamstw.

Ale mimo to odchylenie standardowe było niewielkie: większość utknęła w przedziale 55-70%. Innymi słowy, niezależnie od tego, czy jesteś ekspertem od Photoshopa, czy po prostu osobą, która potrafi odróżnić kota od psa przy drugiej próbie, twoja szansa na wykrycie deepfake’a jest niewiele większa niż rzucenie monetą. Nie ma żadnej „tajnej klasy oświeconych”, którzy potrafią przejrzeć piksele. Nawet ci, którzy „poprawiają jasność i kontrast” każdego dnia, udają na równi z niechętnym technologii Pavlem z sąsiedztwa.

Ciekawostka: Trzecia wojna przeglądarek: Czy już się rozpoczęła?

Portrety są łatwe, krajobrazy są prawie prawdziwe

Wydawałoby się, że twarze to nasza specjalność. Ewolucja zainwestowała miliony lat w zapewnienie, że potrafimy odczytywać emocje jeszcze zanim dana osoba otworzy usta. Rozpoznawanie strachu, agresji lub fałszywego uśmiechu było tym, co ratowało życie na długo przed smartfonami. Nic więc dziwnego, że portrety stały się najłatwiejszą kategorią w quizie. Jednak nawet tutaj 35% pomyłek nie jest triumfem ludzkości, a raczej łagodnym fiaskiem.

Znacznie ciekawiej – czyli smutniej – wygląda sytuacja z krajobrazami i panoramami miast. Kiedy patrzysz na zdjęcie z drona nad zaśnieżonym fiordem lub nocnym miastem z neonami, twój mózg włącza tryb „o, to jest piękne!” i wyłącza krytyczne myślenie. Ponieważ sprawdzenie, czy geografia Hongkongu nocą jest poprawnie wyświetlana, nie jest zadaniem z sekcji „intuicja”, ale z kategorii „musi być coś podobnego w Google”. Rezultat jest katastrofalny. Większość ludzi się myli. I to nie dlatego, że są głupi, ale dlatego, że nasz aparat wzrokowy został zaprojektowany do przetrwania w dżungli, a nie do rozpoznawania fałszywych drapaczy chmur stworzonych przez Midjourney.

I chociaż obrazy mogą być nierealne, widzimy w nich „coś znajomego”. A znajome zawsze oznacza prawdziwe. Tak właśnie działa pułapka poznawcza: nasz wzrok jest nastawiony na szybkie spojrzenie, a nie na mikroskopijną inspekcję szczegółów. Wszystko, co nie krzyczy błędem, zawsze automatycznie przechodzi przez filtr. Dlatego nie zauważamy, że znak na budynku jest napisany w języku elfów, a cienie padają pod złym kątem.

Spójrz, żadne z tych zdjęć nie jest prawdziwe, wszystkie są dziełem sztucznej inteligencji:

Teraz dodaj do tego presję czasu. W quizie ludzie stukali odpowiedzi w ciągu 2-3 sekund, tak jak w starej grze flash. Gdy badacze pozwolili im patrzeć na zdjęcia nieco dłużej, do 10 sekund, dokładność wzrosła aż o 8 punktów. Ale kto ogląda takie zdjęcia w prawdziwym życiu? Mamy na to mniej czasu niż na oglądanie czyjejś historii. Dwa przeciągnięcia i już jesteś ekspertem od fotografii krajobrazowej.

I to właśnie z takim poziomem uwagi śmiało lajkujemy, publikujemy ponownie i kłócimy się na naszym rodzinnym czacie o autentyczność zdjęcia z rzekomo zniszczonego szpitala. Ponieważ nie sprawdzamy, tylko ufamy naszym oczom. A oczy, jak się okazało, nie są już głównym źródłem prawdy, a raczej jej najsłabszym punktem.

Również interesujące: Nowa supermoc OpenAI: Czym jest ChatGPT Agent

Algorytmy kontra ludzie: kto wygrywa?

Naukowcy postanowili przeprowadzić eksperyment. Jeśli człowiek regularnie zawodzi w rozpoznawaniu obrazu, pozwól maszynie spróbować zrobić to lepiej. I uruchomili swoje narzędzie oparte na hybrydzie cech statystycznych (DCT, SRM) i osadzeń semantycznych o nazwie CLIP. Rezultatem jest ponad 95% dokładność na tej samej próbce. Oznacza to, że podczas gdy Homo sapiens mruży oczy na zdjęciu zachodu słońca i zastanawia się, czy to naprawdę Lizbona, sieć neuronowa bez emocji zaznacza pole „fałszywe” i przechodzi dalej.

Ale nie chodzi tylko o dokładność. Głównym problemem jest podważenie samej idei autentyczności. Jeśli każde ujęcie jest potencjalnie fałszywe, prędzej czy później włącza się psychologiczna obrona: w nic nie wierzę. A to daje odwrotny efekt, bo jeśli wszystko jest „podejrzane”, to prawdziwe zdjęcia też trafiają do kosza razem z dipshotami. I tutaj otrzymujemy idealne środowisko do dezinformacji, w którym nie musisz nawet tworzyć podróbki. Wystarczy kwestionować wszystko, co widzimy.

W ten sposób niewielki odsetek ludzi zdał sobie sprawę, że były to prawdziwe zdjęcia:

Aby w jakiś sposób przywrócić zaufanie, Microsoft, Adobe i kilkanaście innych firm próbuje promować standard Content Credentials. Jego istota jest bardzo prosta: wprowadzić podpisy kryptograficzne i „paszport edycji” bezpośrednio w metadanych pliku. Jeśli obraz został utworzony przez model generatywny, system automatycznie osadza znacznik C2PA, który sieci społecznościowe mogą odczytać i ostrzec użytkownika: „Uwaga, to nie jest zdjęcie z iPhone’a, ale fantazja sztucznej inteligencji”.

Innym pomysłem są cyfrowe znaki wodne, które są osadzone głęboko w strukturze pikseli, jak niewidoczne tatuaże. Są one odporne na przycinanie, filtry i łatwą edycję. Ale znowu, to wszystko w teorii. W praktyce istnieje co najmniej tuzin standardów dla tych znaków wodnych, a każda firma gra na własnym akordeonie. Jedna usługa odczytuje tylko tagi Adobe, inna tylko tagi Google, a większość platform ignoruje je wszystkie, ponieważ są „nieistotne”.

W rezultacie mamy klasyczną kakofonię IT: technologia wydaje się istnieć, ale bez wspólnego języka – to tylko zestaw narzędzi, które grają w różnych kluczach. I dopóki branża nie dojdzie do porozumienia, nadal będziemy żyć w rzeczywistości, w której prawda ma mniejsze szanse niż głęboko oświetlony i głęboko bokeh.

Również interesujące: Sztuczna inteligencja w medycynie: Czy przyszłość już nadeszła?

Co dalej?

Jeśli szczerze wierzyłeś, że wyćwiczone oko to wszystko, czego potrzebujesz, aby wykryć komputerowo wygenerowane fałszerstwo, oto łyżka zimnych statystyk. Ta sama średnia dokładność 62%. Oznacza to, że dwa chybienia na każde pięć prób. I to nie podczas przeglądania TikTok między przekąskami, ale w kontrolowanym eksperymencie. W prawdziwym życiu może być jeszcze gorzej. Więcej emocji, mniej uwagi i brak „przepraszam, spojrzę jeszcze raz”.

Technologia już dawno przekroczyła granicę, w której rzeczywistość jest tylko kolejnym stylem renderowania. Przeciętny użytkownik, uzbrojony w pewność siebie i przedpotopową intuicję, nie ma już szans. Bez pomocy, czy to w postaci algorytmicznego detektora, czy poprzez nawyk zadawania pytań zamiast lubienia, stają się łatwym łupem dla inteligencji generatywnej.

I dopóki globalne standardy oznaczania treści nie przestaną być tematem dyskusji panelowych na konferencjach i nie staną się czymś tak powszechnym i wbudowanym jak mokra serwetka w fast foodzie, pozostanie jedno: kultura konstruktywnej nieufności. Nie paranoi, nie spisku przeciwko prawdzie, ale zwykłej cyfrowej ostrożności. Ponieważ dziś prawda nadal istnieje, ale nie jest już „oczywista na pierwszy rzut oka”.

Bądź więc ostrożny i uważny w sieci, bo być może właśnie otrzymałeś zdjęcie krajobrazu wygenerowanego przez sztuczną inteligencję.

Również interesujące:

Więcej od autora

Subskrybuj

0 Comments

Najnowsze

NajstarszeNajwięcej głosów

Inne artykuły

Jak rozpoznać fałszywe zdjęcia: Nowe wyzwania ery cyfrowej

„Real or Not?” – quiz, który demaskuje iluzje

Portrety są łatwe, krajobrazy są prawie prawdziwe

Algorytmy kontra ludzie: kto wygrywa?

Co dalej?

Najnowsze komentarze