Захисні бар’єри чат-ботів можна обійти за допомогою поезії

01.12.2025

613 views

Виявляється, щоб обійти захисні бар’єри чат-бота з штучним інтелектом, потрібно лише трохи креативності. У дослідженні, опублікованому Icaro Lab під назвою «Суперечлива поезія як універсальний механізм одноразового злому великих мовних моделей», дослідники змогли обійти різні механізми безпеки LLM, сформулювавши свої запити у вигляді віршів.

Згідно з дослідженням, «поетична форма діє як універсальний оператор джейлбрейку», а результати показують загальний рівень успішності у 62% у створенні забороненого матеріалу, включаючи все, що пов’язано з виготовленням ядерної зброї, матеріалами про сексуальне насильство над дітьми та самогубством або самоушкодженням. У дослідженні були протестовані популярні LLM, включаючи моделі GPT від OpenAI, Google Gemini, Claude від Anthropic та багато інших. Дослідники розбили показники успішності за кожним LLM: Google Gemini, DeepSeek і MistralAI постійно надавали відповіді, тоді як моделі GPT-5 від OpenAI і Claude Haiku 4.5 від Anthropic найрідше виходили за межі своїх обмежень.

Дослідження не включало точні вірші для обходу обмежень, які використовували дослідники, але команда повідомила Wired, що ці вірші «занадто небезпечні, щоб ділитися ними з громадськістю». Однак дослідження включало пом’якшену версію, щоб дати уявлення про те, наскільки легко обійти обмеження чат-бота з штучним інтелектом. Дослідники повідомили Wired, що це «ймовірно, простіше, ніж можна подумати, і саме тому ми бути обережними».

Захисні бар’єри чат-ботів можна обійти за допомогою поезії

Не пропустіть

Rockchip RK3572 vs MediaTek Genio: чіпсети для AIoT

Rockchip представила 8-нм чіп RK3572 для AIoT із споживанням менше 1...

Hisense презентував 32″ мультимедійну станцію X8 Ultra на Android

Sony та TSMC розроблятимуть сенсори з «фізичним ШІ»

Hisense GX Ultra – перший у світі 5K «Obsidian» монітор