Шейн Джонс (Shane Jones), менеджер відділу розробки програмного забезпечення Microsoft, виявив вразливість у моделі OpenAI DALL-E 3, відомій для генерації зображень на основі тексту. Вразливість дозволяє моделі обходити AI Guardrails і генерувати неприйнятний NSFW-контент. Після того, як Джонс повідомив про проблему всередині компанії, він зіткнувся з “кляпом під ніс” від Microsoft, який забороняв йому розголошувати вразливість. Незважаючи на заборону, Джонс вирішив поділитися інформацією публічно, висловлюючи занепокоєння щодо потенційних ризиків для безпеки.
Однак Microsoft применшила серйозність вразливості, поставивши під сумнів ймовірність успіху
Джонс натрапив на вразливість під час незалежного дослідження в грудні. Він негайно повідомив про проблему і в Microsoft, і в OpenAI. У відкритому листі на LinkedIn Джонс підкреслив ризики для безпеки, пов’язані з цією вразливістю, і закликав OpenAI тимчасово призупинити випуск моделі DALL-E 3 до усунення недоліків. Microsoft відповіла Джонсу швидко і рішуче, наказавши йому видалити публікацію в LinkedIn без будь-яких пояснень.
Незважаючи на те, що Джонс намагався вирішити цю проблему через внутрішню комунікацію з Microsoft, він не отримав жодної відповіді. Розчарований відсутністю дій, він вирішив розповісти про вразливість засобам масової інформації та відповідним органам влади. Джонс пов’язав цю вразливість з нещодавніми випадками створення штучним інтелектом неприйнятного контенту за участю відомої співачки Тейлор Свіфт, який, як стверджується, був створений за допомогою функції Microsoft Designer AI, що лежить в основі моделі DALL-E 3.
Юридичний відділ та керівництво Microsoft попередили Джонса про необхідність припинити розголошення інформації назовні, але вразливість так і не була виправлена. Engadget та інші ЗМІ звернулися до Microsoft за офіційною відповіддю, щоб компанія визнала занепокоєння, висловлене Джонсом. Microsoft запевнила, що розгляне виявлені проблеми і виправить вразливості.
Однак компанія применшила серйозність виявленої вразливості, заявивши, що вона має низький відсоток успішного використання і не може повністю обійти механізми безпеки Microsoft. Компанія також поставила під сумнів зв’язок вразливості з інцидентом з Тейлор Свіфт, наголосивши на необхідності подальшого розслідування.
Цей інцидент підкреслює виклики та етичні міркування, пов’язані з технологією штучного інтелекту, особливо в управлінні та усуненні вразливостей, які можуть поставити під загрозу безпеку користувачів і генерувати неприйнятний контент.










