Reddit подає позов проти Perplexity та трьох «постачальників послуг зі збору даних» з метою «припинити промислове незаконне обходження заходів захисту даних групою зловмисників, які не зупиняться ні перед чим, щоб отримати доступ до цінного контенту Reddit, захищеного авторським правом», як зазначено в позові.
Компанія порівнює компанії, що займаються збором даних — SerpApi, Oxylabs і AWMProxy — з «потенційними грабіжниками банків», які «знаючи, що не можуть проникнути в банківське сховище, замість цього вламуються в броньований вантажний автомобіль, що перевозить готівку». Reddit стверджує, що Perplexity є клієнтом «принаймні однієї» з компаній, що займаються збиранню даних, і заявляє, що вона «очевидно, зробить все, щоб отримати дані Reddit, які їй так необхідні для роботи її «системи відповідей», тобто все, крім укладення угоди безпосередньо з Reddit, як це зробили деякі її конкуренти».
Згідно з позовом, Reddit надіслав Perplexity у травні 2024 року листа з вимогою припинити збирати дані Reddit. Хоча Perplexity на той час запевнив Reddit, що не використовує контент Reddit для навчання моделей штучного інтелекту і що поважатиме файл robots.txt Reddit, після цього листа обсяг цитувань Reddit на Perplexity фактично збільшився. Reddit також створив пост, який міг бути проіндексований тільки Google, і «протягом декількох годин» Perplexity «створив вміст» цього посту, заявляє компанія.
«Єдиний спосіб, яким Perplexity могла отримати цей контент Reddit і потім використовувати його у своєму «механізмі відповідей», — це якщо вона та/або її співвідповідачі збирали SERP Google для цього контенту Reddit, а потім Perplexity швидко вбудовувала ці дані у свій механізм відповідей», — пише Reddit.
Дані Reddit — публікації на всілякі теми, написані та оцінені людьми — надзвичайно корисні для навчання моделей штучного інтелекту, і компанія це знає; зміни в API, які викликали протести 2023 року, були позиціоновані як спосіб компенсації компанії за ці дані. Reddit уклав угоди з компаніями, що займаються штучним інтелектом, включаючи OpenAI і Google, і, як повідомляється, хоче отримати кращі умови. Раніше Reddit вже подавав позов проти Anthropic, стверджуючи, що боти Anthropic отримували доступ до платформи Reddit навіть після того, як Anthropic заявила, що не буде цього робити.
«Компанії, що займаються штучним інтелектом, ведуть гонку озброєнь за якісний людський контент — і цей тиск підживлює економіку «відмивання даних» в промислових масштабах», — заявляє Бен Лі, головний юридичний директор Reddit. «Скрепери обходять технологічні засоби захисту, щоб викрасти дані, а потім продають їх клієнтам, які потребують навчальних матеріалів. Reddit є головним об’єктом, оскільки це одна з найбільших і найдинамічніших колекцій людських розмов, які коли-небудь створювалися.
«Відповідачі Oxylabs UAB, AWM Proxy та SerpAI — литовський скрепер даних, колишній російський ботнет та компанія, яка відкрито рекламує свої сумнівні тактики обходу — є класичними прикладами такої незаконної поведінки», — зазначає Лі. «Не маючи можливості безпосередньо збирати дані з Reddit, вони маскують свою ідентичність, приховують своє місцезнаходження та маскують свої веб-скрепери, щоб викрасти вміст Reddit з Google Search. Perplexity є охочим клієнтом принаймні одного з цих скреперів, вирішивши купувати викрадені дані, а не укладати законну угоду з самим Reddit».
«Perplexity ще не отримала позов, але ми завжди будемо енергійно боротися за права користувачів на вільний і справедливий доступ до публічних знань», — заявив The Verge Джессі Дуаєр, керівник відділу комунікацій Perplexity. «Наш підхід залишається принциповим і відповідальним, оскільки ми надаємо фактичні відповіді за допомогою точної штучної інтелекту, і ми не будемо терпіти загрози відкритості та суспільним інтересам».










