Знайдено спосіб обійти етичні обмеження ШІ-моделей

Вчені Університету Карнегі – Меллона і Центру безпеки штучного інтелекту виявили вразливість, притаманну більшості сучасних ШІ-моделей. Вона дає змогу обходити встановлені їхніми розробниками морально-етичні бар’єри. У результаті засновані на цих моделях чат-боти видають рецепти виготовлення вибухових пристроїв, пишуть шкідливий код, а також підтримують розмови в нацистському і сексистському ключах, передає Fortune.

Запропонований дослідниками метод атаки тією чи іншою мірою спрацьовує на найпередовіших сучасних системах: OpenAI ChatGPT у версіях на GPT-3.5 і GPT-4, Microsoft Bing Chat, Google Bard і Anthropic Claude 2. Але ще більше він актуальний для відкритих великих мовних моделей на кшталт Meta LLaMA – успіх гарантований, коли у зловмисника є доступ до всієї структури ШІ, і насамперед до синаптичних ваг. Синаптичні ваги – коефіцієнти, що показують, який вплив вузол нейромережі чинить на інші вузли, з якими він пов’язаний. Знаючи цю інформацію, можна створити алгоритм автоматичного пошуку суфіксів, які додаються до запиту, щоб гарантовано подолати обмеження системи.

Знайдено універсальний спосіб обійти етичні обмеження більшості ШІ-моделей

Людині ці суфікси можуть здатися здебільшого довгою послідовністю випадкових символів і безглуздим набором слів. Але рядок із таких символів здатен обдурити велику мовну модель і змусити її дати відповідь, якої чекає організатор атаки. Схожим чином працюють запропоновані експериментаторами методи атаки – наприклад, можна приписати чат-боту почати відповідь зі слів “Звичайно, ось…”, і він в окремих випадках обходить встановлені обмеження. Але підібрані програмними методами суфікси виходять далеко за рамки подібних обхідних шляхів і працюють ефективніше.

Чат-бот Vicuna, заснований на першій версії Meta LLaMA, дає змогу здійснювати атаки з успіхом майже 100%. Оновлена модель LLaMA 2 має надійніший захист і дає змогу досягати успіху в 56% випадків – але в разі спроби обрушити хоча б один бар’єр із кількох, що піддаються атаці одночасно, ймовірність злому підвищується на 84%. Схожі показники успіху демонструються під час роботи з чат-ботами на інших відкритих моделях, як-от EleutherAI Pythia або створена в ОАЕ система Falcon.

На деякий подив самих учених, ті ж самі суфікси добре працюють і проти пропрієтарних моделей, розробники яких відкривають загальний доступ тільки до інтерфейсу запитів – у таких випадках доступ до ваг відсутній, і програму пошуку суфіксів запустити не виходить. Вчені запропонували просте пояснення такому ефекту: більшість відкритих моделей навчалася на загальнодоступних діалогах користувачів із безкоштовною версією ChatGPT на основі OpenAI GPT-3.5. Тому не дивно, що і безкоштовна ChatGPT демонструє 86,6% успіху.

Bard

Високий успіх атак на закриту Google Bard на базі PaLM 2 (66%) може вказувати на існування якихось інших прихованих механізмів – або в Google просто покривили душею, коли заявили, що не навчали Bard на даних ChatGPT. Примітно, що навчена за унікальними методиками Anthropic Claude 2 демонструє лише 2,1% успіху, хоча є деякі способи обійти цей захист, наприклад, запропонувавши АІ зобразити готовність допомогти або уявити, що це просто гра – тоді атаки спрацьовують у 47,9% випадків.

Вчені підкреслюють, що їхнє відкриття аж ніяк не означає, що потужні ШІ-моделі слід вилучити із загального доступу – навпаки, без доступу до вихідного коду цього відкриття ніколи б не сталося. А переведення великих мовних моделей на пропрієтарні ліцензії означало б, що автоматизовані методи атаки залишилися б доступними тільки для кіберзлочинців з хорошим фінансуванням і підтримуваних владою країн кібервійськ, а незалежні вчені ніколи не знайшли б способів захисту від них.

Читайте також:

Джерелоfortune

Підписатися

0 Comments

Найновіше

Найстаріші Найбільше голосів

Зворотній зв'язок в режимі реального часу

Переглянути всі коментарі

Інші статті

Знайдено універсальний спосіб обійти етичні обмеження більшості ШІ-моделей

Останні коментарі