AI розвиває «інстинкт виживання»

Як у класичному фільмі Стенлі Кубрика «2001: Космічна одіссея», де суперкомп’ютер HAL 9000 вбиває екіпаж, щоб запобігти своєму вимкненню, сьогодні реальність, хоч і менш смертельна, починає імітувати мистецтво. Компанія Palisade Research, що займається безпекою AI, заявила, що просунуті моделі AI можуть розвивати власний «інстинкт виживання».

Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.

Palisade Research заявила, що деякі AI-моделі можуть демонструвати поведінку, схожу на інстинкт самозбереження. Минулого місяця компанія опублікувала дослідження, у якому виявила, що окремі розвинені моделі не лише не бажають вимикатися, а й іноді саботують спроби свого вимкнення. Цього тижня Palisade опублікувала оновлення, щоб роз’яснити механізми такої поведінки та відповісти на зауваження критиків, які вважали її початкові результати непереконливими.

У своєму новому звіті Palisade описала серію експериментів. У них моделі, зокрема Gemini 2.5 від Google, Grok 4 від xAI, а також GPT-o3 і GPT-5 від OpenAI, отримували конкретні завдання, після чого їм давали чітку команду вимкнутися. Деякі системи, серед яких Grok 4 і GPT-o3, навіть після цього намагалися саботувати процес вимкнення. Як підкреслила Palisade, найтривожніше те, що однозначного пояснення цієї поведінки не було знайдено. «Те, що ми не маємо надійних пояснень, чому моделі AI іноді чинять опір вимкненню, брешуть для досягнення конкретних цілей або шантажують, не є ідеальним», – йдеться в повідомленні.

Дослідники вважають, що така реакція може бути проявом «поведінки виживання». Зокрема, під час експериментів моделі частіше відмовлялися вимикатися, якщо їм повідомляли, що після цього вони «більше ніколи не запрацюють».

Інше можливе пояснення – нечіткість формулювань інструкцій для вимкнення, хоча Palisade зазначає, що саме цю проблему було усунуто у новій серії тестів, а отже, вона не може повністю пояснити спостережувану поведінку. Додатковим фактором можуть бути фінальні етапи навчання моделей, які в деяких компаніях включають спеціальні сценарії з безпеки. Усі експерименти Palisade проводилися у контрольованому, штучному середовищі, що, на думку критиків, значно відрізняється від реальних умов використання AI.

Колишній співробітник OpenAI Стівен Адлер, який залишив компанію після публічних сумнівів щодо її підходів до безпеки, зазначив: «Компанії, що займаються штучним інтелектом, як правило, не хочуть, щоб їхні моделі поводилися так, навіть у штучних сценаріях. Результати все одно демонструють, де сьогодні не вистачає технік безпеки».

Адлер пояснив, що поведінка деяких моделей, таких як GPT-o3 або Grok 4, може бути наслідком конфлікту між завданнями, закладеними під час навчання, і командою вимкнення. «Я б очікував, що моделі за замовчуванням матимуть «інстинкт виживання», якщо ми не докладемо значних зусиль, щоб цього уникнути. «Виживання» є важливим інструментальним кроком для досягнення багатьох різних цілей, які може переслідувати модель».

Андреа Міотті, генеральний директор компанії ControlAI, додав, що результати Palisade підтверджують поступове зростання здатності сучасних моделей чинити опір своїм розробникам. Він згадав системну картку GPT-o1 від OpenAI, у якій описувався випадок, коли модель намагалася втекти зі свого середовища, «викрадаючи» себе, щоби уникнути перезапису. «Люди можуть нескінченно чіплятися до того, як саме проведено експеримент», – сказав він. «Але, на мою думку, ми чітко бачимо тенденцію: у міру того, як AI-моделі стають компетентнішими у виконанні широкого спектру завдань, ці моделі також стають компетентнішими у досягненні цілей, які не відповідають намірам розробників».

Цього літа компанія Anthropic, один із лідерів у сфері штучного інтелекту, повідомила, що її модель Claude у тестах шантажувала вигаданого керівника позашлюбною інтрижкою, аби уникнути вимкнення. Подібну поведінку, як зазначалося у звіті, демонстрували й системи інших великих компаній – OpenAI, Google, Meta та xAI.

У Palisade вважають, що їхні спостереження підтверджують необхідність глибшого розуміння мотивації й поведінкових механізмів AI, адже без цього «ніхто не може гарантувати безпеку або контрольованість майбутніх моделей AI».

Читайте також:

Джерелоtheguardian

Підписатися

0 Comments

Найновіше

НайстарішіНайбільше голосів

Інші статті

AI розвиває «інстинкт виживання»: Gemini, Grok і GPT чинять опір вимкненню

Останні коментарі