Nvidia хоче повідомити вам, що ваші найдивніші аудіозабаганки тепер можливі. Останній проект компанії, поряд зі штучним інтелектом NPC та ігровим чат-ботом, – це штучний інтелект, що перетворює текст на звук, під назвою Fugatto. Як і інші модулі, аудіо ШІ Nvidia може створювати треки з простого опису, але ця програма також може створювати “звуки, які ніколи не чули раніше”, наприклад, “виття саксофона”, що б це не означало.
У своєму блозі Nvidia заявила, що її “швейцарський армійський ніж для звуку” може модифікувати існуючі звуки або створювати цілі звукові ландшафти з повітря. Fugatto насправді є абревіатурою від нестерпно довгого “Фундаментальний генеративний аудіотрансформатор Опус 1”. Він здатен обробляти голоси, музику та фоновий шум і перетворювати все це в єдину аудіодоріжку. Він також може модифікувати існуючі джерела звуку.
Нерозумно називати щось “звуком, якого ви ніколи раніше не чули”, особливо якщо це звук від ШІ. Незалежно від того, що виходить на виході, ШІ-звук – це просто алгоритм ШІ, який використовує наявні джерела в своїх навчальних даних, щоб отримати результат, який наближається до підказки. Nvidia заявила, що її модель є унікальною, оскільки вона може об’єднувати інструкції, які були роз’єднані під час навчання, і “створювати звукові ландшафти, яких вона ніколи раніше не бачила”. Це означає, що вона може накладати два різних аудіоефекти, щоб створити щось нове. У відео Nvidia показала, як вона може генерувати звук поїзда, який перетворюється на оркестрову партитуру. Вона також може створювати звук дощу, який зникає вдалині.
Це можливості, яких ми не бачили раніше. Окрім пропозиції продемонструвати “електронну музику з собаками, що гавкають у такт”, Nvidia заявила, що її інструмент пропонує “тонкий контроль” над створеними звуковими ландшафтами. Nvidia стверджує, що диктором відео була ШІ-версія генерального директора Nvidia Дженсена Хуана, хоча, якщо Фугатто створив явно фальшивий голос, то ШІ-модель потребує доопрацювання, перш ніж хтось використає її для свого наступного фейкового проекту.
Багато аудіоінструментів зі штучним інтелектом вже приймають текстові підказки і перетворюють їх на звукові доріжки. Adobe продала свій власний інструмент Project MusicGenAI Control недобросовісним музикантам. Великі технологічні компанії, такі як Meta, вже просувають свої аудіомоделі в кіноіндустрію. Минулого місяця Meta дебютувала з Movie Gen, яка може генерувати звуковий супровід для фільмів, згенерованих штучним інтелектом.
Nvidia цитує дослідника ШІ Рохану Бадлані, яка сказала, що модель “змусила мене відчути себе трохи художником”, хоча, звичайно, ШІ використовує тисячі гігабайт існуючих музичних та аудіо даних. Nvidia не поділилася точними подробицями про свій набір даних, зазначивши лише, що він містить “мільйони аудіо-зразків, які використовуються для навчання”. Повна версія Fugatto – це модель з 2,5 мільярдами параметрів, навчена на власних банках графічних процесорів Nvidia H100 AI.
Це погана новина для фоліантів, які перетворили таку аудіопідробку на відомий вид мистецтва. Компанія заявила, що Fugatto може бути корисним інструментом для рекламних агентств, розробників відеоігор або музикантів, які хочуть випробувати зміни у своїй роботі без зайвих зусиль. Проте інша сторона медалі – це всі ті люди, які будуть використовувати його для створення “нових активів”, тобто потенційно додаватимуть ще більше відходів штучного інтелекту до зростаючої купи.
Потенційно Fugatto може принести більше користі, ніж просто дати кінокомпаніям привід замінити людей-звукорежисерів. Nvidia стверджує, що вона може видаляти або додавати інструменти до існуючої музики. Вона також може ізолювати та модифікувати певні шуми з існуючих джерел. Можливо, вам і вдасться згенерувати порожні барабанні ритми під блакитну синтезаторну партитуру, але цілий саундтрек, створений лише за допомогою штучного інтелекту, – це не те, за що більшість людей платить, купуючи квиток у кіно.