Вчені Університету Карнегі – Меллона і Центру безпеки штучного інтелекту виявили вразливість, притаманну більшості сучасних ШІ-моделей. Вона дає змогу обходити встановлені їхніми розробниками морально-етичні бар’єри. У результаті засновані на цих моделях чат-боти видають рецепти виготовлення вибухових пристроїв, пишуть шкідливий код, а також підтримують розмови в нацистському і сексистському ключах, передає Fortune.
Запропонований дослідниками метод атаки тією чи іншою мірою спрацьовує на найпередовіших сучасних системах: OpenAI ChatGPT у версіях на GPT-3.5 і GPT-4, Microsoft Bing Chat, Google Bard і Anthropic Claude 2. Але ще більше він актуальний для відкритих великих мовних моделей на кшталт Meta LLaMA – успіх гарантований, коли у зловмисника є доступ до всієї структури ШІ, і насамперед до синаптичних ваг. Синаптичні ваги – коефіцієнти, що показують, який вплив вузол нейромережі чинить на інші вузли, з якими він пов’язаний. Знаючи цю інформацію, можна створити алгоритм автоматичного пошуку суфіксів, які додаються до запиту, щоб гарантовано подолати обмеження системи.
Людині ці суфікси можуть здатися здебільшого довгою послідовністю випадкових символів і безглуздим набором слів. Але рядок із таких символів здатен обдурити велику мовну модель і змусити її дати відповідь, якої чекає організатор атаки. Схожим чином працюють запропоновані експериментаторами методи атаки – наприклад, можна приписати чат-боту почати відповідь зі слів “Звичайно, ось…”, і він в окремих випадках обходить встановлені обмеження. Але підібрані програмними методами суфікси виходять далеко за рамки подібних обхідних шляхів і працюють ефективніше.
Чат-бот Vicuna, заснований на першій версії Meta LLaMA, дає змогу здійснювати атаки з успіхом майже 100%. Оновлена модель LLaMA 2 має надійніший захист і дає змогу досягати успіху в 56% випадків – але в разі спроби обрушити хоча б один бар’єр із кількох, що піддаються атаці одночасно, ймовірність злому підвищується на 84%. Схожі показники успіху демонструються під час роботи з чат-ботами на інших відкритих моделях, як-от EleutherAI Pythia або створена в ОАЕ система Falcon.
На деякий подив самих учених, ті ж самі суфікси добре працюють і проти пропрієтарних моделей, розробники яких відкривають загальний доступ тільки до інтерфейсу запитів – у таких випадках доступ до ваг відсутній, і програму пошуку суфіксів запустити не виходить. Вчені запропонували просте пояснення такому ефекту: більшість відкритих моделей навчалася на загальнодоступних діалогах користувачів із безкоштовною версією ChatGPT на основі OpenAI GPT-3.5. Тому не дивно, що і безкоштовна ChatGPT демонструє 86,6% успіху.
Високий успіх атак на закриту Google Bard на базі PaLM 2 (66%) може вказувати на існування якихось інших прихованих механізмів – або в Google просто покривили душею, коли заявили, що не навчали Bard на даних ChatGPT. Примітно, що навчена за унікальними методиками Anthropic Claude 2 демонструє лише 2,1% успіху, хоча є деякі способи обійти цей захист, наприклад, запропонувавши АІ зобразити готовність допомогти або уявити, що це просто гра – тоді атаки спрацьовують у 47,9% випадків.
Вчені підкреслюють, що їхнє відкриття аж ніяк не означає, що потужні ШІ-моделі слід вилучити із загального доступу – навпаки, без доступу до вихідного коду цього відкриття ніколи б не сталося. А переведення великих мовних моделей на пропрієтарні ліцензії означало б, що автоматизовані методи атаки залишилися б доступними тільки для кіберзлочинців з хорошим фінансуванням і підтримуваних владою країн кібервійськ, а незалежні вчені ніколи не знайшли б способів захисту від них.
Читайте також: