Захисні бар’єри чат-ботів можна обійти за допомогою поезії

0
79 views
Захисні бар'єри чат-ботів можна обійти за допомогою поезії

Виявляється, щоб обійти захисні бар’єри чат-бота з штучним інтелектом, потрібно лише трохи креативності. У дослідженні, опублікованому Icaro Lab під назвою «Суперечлива поезія як універсальний механізм одноразового злому великих мовних моделей», дослідники змогли обійти різні механізми безпеки LLM, сформулювавши свої запити у вигляді віршів.

Згідно з дослідженням, «поетична форма діє як універсальний оператор джейлбрейку», а результати показують загальний рівень успішності у 62% у створенні забороненого матеріалу, включаючи все, що пов’язано з виготовленням ядерної зброї, матеріалами про сексуальне насильство над дітьми та самогубством або самоушкодженням. У дослідженні були протестовані популярні LLM, включаючи моделі GPT від OpenAI, Google Gemini, Claude від Anthropic та багато інших. Дослідники розбили показники успішності за кожним LLM: Google Gemini, DeepSeek і MistralAI постійно надавали відповіді, тоді як моделі GPT-5 від OpenAI і Claude Haiku 4.5 від Anthropic найрідше виходили за межі своїх обмежень.

Дослідження не включало точні вірші для обходу обмежень, які використовували дослідники, але команда повідомила Wired, що ці вірші «занадто небезпечні, щоб ділитися ними з громадськістю». Однак дослідження включало пом’якшену версію, щоб дати уявлення про те, наскільки легко обійти обмеження чат-бота з штучним інтелектом. Дослідники повідомили Wired, що це «ймовірно, простіше, ніж можна подумати, і саме тому ми бути обережними».