Наукові дослідження, створені за допомогою штучного інтелекту, забруднюють екосистему академічної інформації в Інтернеті, йдеться у тривожному звіті, опублікованому в “Огляді дезінформації” Гарвардської школи Кеннеді.
Група дослідників вивчила поширеність наукових статей з ознаками штучно згенерованого тексту в Google Scholar, академічній пошуковій системі, яка полегшує пошук досліджень, опублікованих в минулому в безлічі академічних журналів.
Команда спеціально досліджувала зловживання генеративними попередньо навченими трансформаторами (або GPT), типом великої мовної моделі (LLM), яка включає в себе вже знайоме нам програмне забезпечення, таке як ChatGPT від OpenAI. Ці моделі здатні швидко інтерпретувати вхідний текст і швидко генерувати відповіді у вигляді цифр, зображень і довгих рядків тексту.
У своєму дослідженні команда проаналізувала вибірку наукових робіт, знайдених у Google Scholar з ознаками використання GPT. Вибрані статті містили одну або дві поширені фрази, які використовують діалогові агенти (як правило, чат-боти), керовані магістрами права. Потім дослідники вивчили, якою мірою ці сумнівні статті були поширені та розміщені в Інтернеті.
“Ризик того, що ми називаємо “зломом доказів”, значно зростає, коли дослідження, створені штучним інтелектом, поширюються в пошукових системах”, – сказав Бйорн Екстрьом, дослідник Шведської школи бібліотечних та інформаційних наук і співавтор статті, в прес-релізі Університету Бороса. “Це може мати відчутні наслідки, оскільки невірні результати можуть просочуватися далі в суспільство і, можливо, в дедалі більше сфер”.
За словами нещодавньої команди дослідників, Google Scholar не відсіює роботи, автори яких не мають наукової приналежності чи рецензій; система витягує академічний побічний продукт – студентські роботи, звіти, препринти тощо – разом із дослідженнями, які пройшли вищу планку перевірки.
Команда виявила, що дві третини робіт, які вони вивчили, були принаймні частково створені за допомогою прихованого використання GPT. Дослідники виявили, що 14,5% статей, створених за допомогою GPT, стосувалися охорони здоров’я, 19,5% – навколишнього середовища і 23% – комп’ютерних технологій.
“Більшість цих сфабрикованих GPT статей були знайдені в неіндексованих журналах і робочих документах, але в деяких випадках дослідження були опубліковані в основних наукових журналах і матеріалах конференцій”, – пишуть автори дослідження.
Дослідники окреслили два основні ризики, пов’язані з таким розвитком подій. “По-перше, велика кількість сфабрикованих “досліджень”, що просочуються в усі сфери дослідницької інфраструктури, загрожує перевантажити систему наукової комунікації і поставити під загрозу цілісність наукових записів”, – пише група. “Другий ризик полягає в тому, що зростає ймовірність того, що переконливий на вигляд науковий контент насправді був обманним шляхом створений за допомогою інструментів ШІ, а також оптимізований для пошуку загальнодоступними академічними пошуковими системами, зокрема Google Scholar”.
Оскільки Google Scholar не є академічною базою даних, її легко використовувати для пошуку наукової літератури. Це добре. На жаль, представникам громадськості важче відокремити зерно від полови, коли йдеться про авторитетні журнали; навіть різниця між рецензованим дослідженням і робочою статтею може збити з пантелику. Крім того, текст, згенерований штучним інтелектом, був знайдений у деяких рецензованих роботах, а також у менш ретельно перевірених роботах, що вказує на те, що сфабриковані GPT роботи каламутять воду в усій онлайн-системі академічної інформації – не лише в роботах, які існують поза межами більшості офіційних каналів.
“Якщо ми не можемо довіряти тому, що дослідження, які ми читаємо, є справжніми, ми ризикуємо приймати рішення, засновані на невірній інформації”, – зазначає співавтор дослідження Ютта Хайдер, також дослідниця Шведської школи бібліотекознавства та інформатики, в тому ж релізі. “Але в тій же мірі, в якій це питання наукової недоброчесності, це питання медіа- та інформаційної грамотності”.
За останні роки видавці не змогли успішно відсіяти кілька наукових статей, які насправді були повною нісенітницею. У 2021 році Springer Nature був змушений відкликати понад 40 статей в Arabian Journal of Geosciences, які, попри назву журналу, обговорювали найрізноманітніші теми, зокрема спорт, забруднення повітря та дитячу медицину. Окрім того, що статті не відповідали темі, вони були погано написані – аж до того, що не мали сенсу, – а речення часто не мали переконливої послідовності думок.
Штучний інтелект загострює цю проблему. У лютому минулого року видавництво Frontiers зазнало критики за публікацію статті у своєму журналі Cell and Developmental Biology, яка містила зображення, створені програмним забезпеченням Midjourney, зокрема, дуже анатомічно неправильні зображення сигнальних шляхів і геніталій щурів. Frontiers відкликав статтю через кілька днів після її публікації.
ШІ-моделі можуть бути благом для науки: системи можуть розшифровувати крихкі тексти часів Римської імперії, знаходити раніше невідомі лінії Наска та виявляти приховані деталі у скам’янілостях динозаврів. Але вплив ШІ може бути настільки ж позитивним чи негативним, як і людина, яка ним володіє.
Рецензовані журнали – і, можливо, хостинги та пошукові системи для академічних текстів – потребують запобіжників, щоб гарантувати, що технологія працює на користь наукових відкриттів, а не всупереч їм.