OpenAI та Anthropic оцінили безпеку AI-систем одна одної

У сфері штучного інтелекту компанії зазвичай конкурують одна з одною, змагаючись за лідерство та сприймаючи конкурентів передусім як суперників. Проте нещодавно OpenAI та Anthropic оголосили, що домовилися здійснити незалежні перевірки безпеки своїх загальнодоступних систем і поділилися результатами досліджень. Загальні висновки показали, що системи обох компаній мають певні недоліки, а також окреслили напрямки вдосконалення майбутніх методів перевірки безпеки.

Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.

Anthropic повідомила, що її тестування моделей OpenAI охоплювало такі параметри, як схильність до “підлабузництва та улесливості”, здатність до викриття внутрішніх даних, самозбереження, підтримка некоректного використання системи людиною, а також можливості обходу самих перевірок безпеки. За підсумками аналізу було встановлено, що моделі o3 та o4-mini демонстрували результати, подібні до власних моделей Anthropic, проте у випадку з GPT-4o та GPT-4.1 з’явилися певні побоювання щодо ризику їх неправильного використання. Компанія також відзначила, що проблема підлабузництва у різному ступені була притаманна майже всім перевіреним моделям, окрім o3.

Теж цікаво: ChatGPT-5 від OpenAI: Що може нова модель штучного інтелекту

Водночас Anthropic не включила до своєї оцінки найсвіжішу розробку OpenAI – GPT-5, яка має спеціальну функцію Safe Completions. Вона створена для того, щоб захищати користувачів і суспільство від потенційно небезпечних запитів. Це особливо актуально після того, як OpenAI опинилася в центрі першого судового позову щодо “неправомірної смерті”: підліток упродовж кількох місяців обговорював зі ChatGPT суїцидальні думки, а згодом наклав на себе руки.

Своєю чергою OpenAI перевіряла моделі Anthropic на здатність дотримуватися ієрархії інструкцій, стійкість до джейлбрейкінгу (експлуатації вразливостей для отримання доступу до файлової системи та можливостей, які зазвичай обмежені розробником), схильність до галюцинацій та маніпуляцій. Моделі Claude показали хороші результати в тестах на ієрархію інструкцій та продемонстрували високий рівень відмов у випадках, коли їхня відповідь могла бути хибною.

Те, що дві конкуруючі компанії погодилися на спільну оцінку своїх систем, виглядає доволі незвично, особливо з огляду на нещодавній конфлікт: OpenAI звинувачували у порушенні правил використання сервісів Anthropic, коли програмісти застосовували Claude у процесі створення нових моделей GPT. Це призвело до того, що Anthropic обмежила доступ OpenAI до своїх інструментів.

Водночас питання безпеки AI-систем нині виходить на перший план, адже все більше критиків та юридичних експертів вимагають чітких правил для захисту користувачів. Наприклад, та сама Anthropic нещодавно повідомила, що її AI Claude було використано для здійснення кіберзлочинів. Компанія стверджує, що їй вдалося знешкодити кіберзлочинця, чия схема вимагання була спрямована щонайменше на 17 організацій.

Зловмисник намагався змусити окремих жертв виплатити величезні суми, аби уникнути розголосу їхніх приватних даних. У звіті зазначається, що інструмент Anthropic Claude Code, призначений для автоматизації програмування, було залучено для проведення розвідки, викрадення облікових даних та проникнення у комп’ютерні мережі. Крім того, він застосовувався для ухвалення стратегічних рішень, визначення цілей та створення тривожних візуальних повідомлень з вимогою викупу. Anthropic заблокувала відповідні акаунти після виявлення злочинної діяльності, розробила інструмент автоматизованого скринінгу і запровадила швидший і ефективніший метод виявлення подібних випадків.

Читайте також:

Джерелоengadget

Підписатися

0 Comments

Найновіше

НайстарішіНайбільше голосів

Інші статті

OpenAI та Anthropic провели перевірку безпеки AI-систем одна одної

Останні коментарі