Вікіпедія бореться з ненажерливими ШІ-ботами

0
688 views
Вікіпедія бореться з ненажерливими ШІ-ботами

З січня 2024 року у Вікімедіа на 50 відсотків збільшилася пропускна здатність, яка використовується для завантаження мультимедійного контенту, повідомляє фонд у своєму оновленому звіті. Але це не тому, що читачі-люди раптом розвинули ненажерливий апетит до споживання статей Вікіпедії, перегляду відео або завантаження файлів з Вікісховища. Ні, сплеск використання стався через пошукових роботів, або автоматизованих програм, які сканують зображення, відео, статті та інші файли Вікіпедії з відкритою ліцензією для тренування генеративних моделей штучного інтелекту.

Таке раптове збільшення трафіку від ботів може сповільнити доступ до сторінок і ресурсів Вікімедіа, особливо під час подій, що викликають великий інтерес. Наприклад, коли в грудні помер Джиммі Картер, підвищений інтерес людей до відеозапису його президентських дебатів з Рональдом Рейганом спричинив повільне завантаження сторінок для деяких користувачів. Вікімедіа здатна витримувати сплески трафіку від читачів під час таких подій, і користувачі, які дивилися відео Картера, не повинні були викликати жодних проблем. Але “кількість трафіку, що генерується ботами-скреперами, є безпрецедентною і створює зростаючі ризики та витрати”, – заявили у Вікімедіа.

У фонді пояснили, що читачі-люди, як правило, шукають конкретні і часто схожі теми. Наприклад, багато людей шукають одне й те саме, коли це в тренді. Вікімедіа створює кеш багаторазово запитуваного контенту в найближчому до користувача дата-центрі, що дозволяє йому обслуговувати контент швидше. Але статті та контент, до яких давно не зверталися, доводиться завантажувати з основного дата-центру, що споживає більше ресурсів, а отже, коштує Вікімедіа більше грошей. Оскільки роботи зі штучним інтелектом схильні до масового читання сторінок, вони отримують доступ до незрозумілих сторінок, які доводиться обслуговувати з основного дата-центру.

Вікімедіа заявила, що, якщо придивитися уважніше, 65% ресурсоємного трафіку, який вона отримує, припадає на ботів. Це вже спричиняє постійні перебої в роботі команди з надійності сайту, якій доводиться постійно блокувати пошукових роботів, перш ніж вони суттєво сповільнять доступ до сторінок для реальних читачів. Справжня проблема, як заявляє Вікімедіа, полягає в тому, що “розширення відбулося значною мірою без достатньої атрибуції, яка є ключовим фактором для залучення нових користувачів до участі в русі”. Фундація, яка покладається на пожертви людей, щоб продовжувати працювати, повинна залучати нових користувачів і змушувати їх піклуватися про свою справу. “Наш контент є безкоштовним, наша інфраструктура – ні”, – заявили у фонді. Зараз Вікімедіа прагне створити стійкі способи доступу розробників і повторних користувачів до свого контенту в наступному фінансовому році. Вона мусить це зробити, бо не бачить жодних ознак того, що трафік, пов’язаний зі штучним інтелектом, найближчим часом сповільниться.