ШІ-компанії збирають дані з сайтів ЗМІ всупереч заборонам

Компанія Perplexity, яка описує свій продукт як “безкоштовну пошукову систему зі штучним інтелектом”, останніми днями опинилася під вогнем. Невдовзі після того, як Forbes звинуватив її у крадіжці своєї статті та перевиданні її на кількох платформах, Wired повідомив, що Perplexity ігнорує протокол виключення роботів, або robots.txt, і видаляє свої статті зі свого сайту та інших публікацій Condé Nast. Технологічний сайт The Shortcut також звинуватив ШІ-компанію у видаленні своїх статей. Тепер ресурс Reuters повідомив, що Perplexity – не єдина AI-компанія, яка обходить файли robots.txt і вичищає веб-сайти, щоб отримати контент, який потім використовується для навчання своїх технологій.

Агентство Reuters повідомило, що бачило лист, адресований видавцям від TollBit, стартапу, який об’єднує їх з фірмами, що займаються розробкою ШІ, щоб вони могли укладати ліцензійні угоди, і попереджає їх про те, що “агенти ШІ з різних джерел (а не тільки з однієї компанії) вирішили обійти протокол robots.txt для отримання контенту з сайтів”. Файл robots.txt містить інструкції для пошукових роботів, до яких сторінок вони можуть отримати доступ, а до яких – ні. Веб-розробники використовують цей протокол з 1994 року, але його дотримання є повністю добровільним.

Perplexity

У листі TollBit не названо жодної компанії, але Business Insider стверджує, що йому стало відомо, що OpenAI і Anthropic – автори чат-ботів ChatGPT і Claude відповідно – також обходять сигнали robots.txt. Обидві компанії раніше заявляли, що поважають інструкції “не сканувати”, які веб-сайти розміщують у своїх файлах robots.txt.

Під час свого розслідування Wired виявив, що машина на сервері Amazon, якою “безумовно керує Perplexity”, обходила інструкції robots.txt свого веб-сайту. Щоб підтвердити, що Perplexity вичищає свій контент, Wired надав інструменту компанії заголовки зі своїх статей або короткі підказки, що описують їхні історії. Як повідомляється, інструмент видавав результати, які точно перефразовували її статті “з мінімальним зазначенням авторства”. А іноді він навіть створював неточні резюме до статей – Wired стверджує, що чат-бот помилково стверджував, що в одному випадку повідомляв про конкретного каліфорнійського поліцейського, який вчинив злочин.

В інтерв’ю Fast Company генеральний директор Perplexity Аравінд Шрінівас заявив виданню, що його компанія “не ігнорує Протокол про виключення роботів, а потім бреше про це”. Однак це не означає, що вона не отримує вигоду від роботів, які ігнорують протокол. Шрінівас пояснив, що компанія використовує сторонніх пошукових роботів на додаток до своїх власних, і що робот, якого ідентифікував Wired, був одним з них. Коли Fast Company запитала, чи говорила Perplexity провайдеру сканерів, щоб той припинив сканувати сайт Wired, він відповів, що “це складно”.

ШІ-компанії збирають дані з сайтів ЗМІ всупереч прямим заборонам

Шрінівас захистив практику своєї компанії, заявивши виданню, що протокол про виключення роботів “не є правовою основою”, і припустивши, що видавцям і компаніям, подібним до його, можливо, доведеться встановити новий тип відносин. Він також натякнув, що Wired навмисно використовував підказки, щоб змусити чат-бота Perplexity поводитися саме так, тому звичайні користувачі не отримають таких же результатів. Щодо неточних висновків, які згенерував інструмент, Шрінівас сказав: “Ми ніколи не говорили, що чат-бот Perplexity є неточним: “Ми ніколи не говорили, що у нас ніколи не було галюцинацій”.

Читайте також:

Джерелоengadget

Підписатися

0 Comments

Найновіше

Найстаріші Найбільше голосів

Зворотній зв'язок в режимі реального часу

Переглянути всі коментарі

Інші статті

ШІ-компанії збирають дані з сайтів ЗМІ всупереч прямим заборонам

Останні коментарі