ШІ Whisk від Google використовує зображення як підказки

0
535 views
Новий інструмент штучного інтелекту Google Whisk використовує зображення як підказки

Google має ще один інструмент штучного інтелекту, який можна додати до купи. Whisk – це генератор зображень від Google Labs, який дозволяє використовувати наявне зображення як підказку. Але його результат відображає лише “суть” вашого початкового зображення, а не відтворює його з новими деталями. Отже, він більше підходить для мозкового штурму та швидких візуалізацій, ніж для редагування вихідного зображення.

Компанія описує Whisk як “новий тип творчого інструменту”. Екран введення починається з простого інтерфейсу, на якому можна вибрати стиль і тему. Цей простий вступний інтерфейс дозволяє вибрати лише один із трьох попередньо визначених стилів: наклейка, емалева шпилька та плюшевий малюнок. Підозрюю, що Google вирішив, що саме ці три стилі дозволяють створювати грубі ескізи, для яких експериментальний інструмент у його теперішньому вигляді є найбільш ідеальним.

Як ви можете бачити на зображенні вище, він створив суцільне зображення плюшевого ведмедика Вілфорда Брімлі. (Правила Google забороняють зображення знаменитостей, але Вілфорд прослизнув через ворота з вівсянкою Quaker Oats на буксирі, не попередивши охорону).

Whisk також включає більш просунутий редактор (його можна знайти, натиснувши “Почати з нуля” на головному екрані). У цьому режимі ви можете використовувати текст або вихідне зображення у трьох категоріях: тема, сцена і стиль. Також є рядок введення, щоб додати більше тексту для завершальних штрихів. Однак у поточному вигляді розширені елементи керування не давали результатів, які б відповідали моїм запитам.

Наприклад, подивіться на мою спробу згенерувати покійного містера Брімлі у сцені лайтбоксу в стилі плюшевого моржа, який я знайшов в Інтернеті:

Новий інструмент ШІ Google Whisk використовує зображення як підказки

Віночок випльовує щось схоже на актора, схожого на Вілфорда Брімлі, який їсть вівсянку в рамці лайтбоксу. Наскільки я можу судити, цей чувак не плюшевий. Тож зрозуміло, чому Google рекомендує використовувати інструмент більше для “швидкого візуального дослідження” і менше для готового до виробництва контенту.

Google визнає, що Whisk використовує лише “кілька ключових характеристик” вашого вихідного зображення. “Наприклад, згенерований об’єкт може мати інший зріст, вагу, зачіску або відтінок шкіри”, – попереджає компанія.

Щоб зрозуміти, чому, достатньо звернутися до опису Google про те, як Whisk працює під капотом. Він використовує мовну модель Gemini для написання детального опису вихідного зображення, яке ви завантажуєте. Потім він завантажує цей опис у генератор зображень Imagen 3. Таким чином, результатом є зображення, засноване на словах Близнюків про ваше зображення, а не на самому вихідному зображенні.

Whisk доступний лише в США, принаймні поки що. Спробувати його можна на сайті проекту Google Labs.