Google представив VideoPOET, який відкриває нові горизонти у створенні когерентного відео

0
1 867 views
Google представив VideoPOET, який відкриває нові горизонти у створенні когерентного відео

Після того, як штучний інтелект Copilot від Microsoft отримав можливість генерувати аудіокліпи з текстових підказок, Google представив VideoPoet – велику мовну модель (LLM), яка розширює межі створення відео, створюючи 10-секундні кліпи з меншою кількістю артефактів. Модель підтримує низку завдань для створення відео, включаючи перетворення тексту у відео, перетворення зображення у відео, стилізацію відео, розфарбовування та перетворення відео в аудіо.

Вона генерує 10-секундні відеокліпи з текстових підказок, а також здатна анімувати нерухомі зображення

На відміну від своїх попередників, VideoPoet вирізняється тим, що може створювати цілісні відеоролики з великою кількістю рухів. Модель демонструє свою майстерність, створюючи десятисекундні відеоролики, залишаючи позаду своїх конкурентів, включаючи Gen-2. Примітно, що VideoPoet не покладається на конкретні дані для створення відео, що відрізняє його від інших моделей, які вимагають детальних вхідних даних для досягнення оптимального результату.

Ця багатогранна можливість стала можливою завдяки використанню мультимодальної великої моделі, що виводить її на траєкторію, яка потенційно може стати мейнстрімом у створенні відео.

VideoPOET від Google відходить від домінуючої тенденції в моделях створення відео, які переважно покладаються на підходи, що базуються на дифузії. Натомість VideoPoet використовує можливості великих мовних моделей (LLM). Модель легко інтегрує різні завдання генерації відео в межах однієї LLM, усуваючи потребу в окремо навчених компонентах для кожної функції.

Отримані відео можуть бути різної тривалості, з різноманітними діями та стилями, що базуються на вхідному текстовому контенті. Крім того, VideoPoet може виконувати перетворення вхідних зображень в анімацію на основі наданих підказок, демонструючи свою адаптивність до різних вхідних даних.

Випуск VideoPOET додає новий вимір до створення відео зі штучним інтелектом, натякаючи на можливості, які чекають на нас у 2024 році.