Sesame випускає свою базову модель штучного інтелекту

14.03.2025

572 views

Компанія Sesame, що займається розробкою штучного інтелекту, випустила базову модель, на якій працює вражаюче реалістичний голосовий асистент Maya.

Модель, яка налічує 1 мільярд параметрів (“параметри” – це окремі компоненти моделі), має ліцензію Apache 2.0, що означає, що її можна використовувати в комерційних цілях з невеликими обмеженнями. Модель під назвою CSM-1B генерує “аудіокоди RVQ” з текстових і звукових вхідних даних, згідно з описом Сезама на платформі для розробки ШІ Hugging Face.

RVQ означає “залишкове векторне квантування”, техніку кодування аудіо в дискретні маркери, які називаються кодами. RVQ використовується в низці останніх аудіотехнологій ШІ, зокрема в SoundStream від Google і Encodec від Meta.

CSM-1B використовує модель з сімейства Llama від Meta як основу в парі з компонентом-“декодером” звуку. За словами Сезама, доопрацьований варіант CSM забезпечує роботу Maya.

“Модель з відкритим вихідним кодом є моделлю базового покоління, – пише Сезам у репозиторіях CSM-1B Hugging Face та GitHub. “Вона здатна генерувати різноманітні голоси, але вона не була точно налаштована на якийсь конкретний голос […] Модель має певний потенціал для неанглійських мов через забруднення даних у навчальних даних, але, швидше за все, вона не буде працювати добре”.

Незрозуміло, які дані Sesame використовувала для навчання CSM-1B. Компанія не повідомила.

Варто зазначити, що модель не має жодних реальних гарантій, про які можна було б говорити. Sesame має систему честі і просто закликає розробників і користувачів не використовувати модель для імітації голосу людини без її згоди, створення контенту, що вводить в оману, наприклад, фейкових новин, або для “шкідливої” чи “зловмисної” діяльності.

Я спробував демо-версію на Hugging Face, і клонування мого голосу зайняло менше хвилини. Після цього було легко генерувати промову на власний розсуд, у тому числі на суперечливі теми, як-от вибори та російська пропаганда.

Нещодавно видання Consumer Reports попередило, що багато популярних на ринку інструментів для клонування голосу на основі штучного інтелекту не мають “значущих” запобіжників для запобігання шахрайству або зловживанням.

Компанія Sesame, співзасновником якої є співтворець Oculus Брендан Айрібе, наприкінці лютого стала вірусною завдяки своїй технології-помічнику, яка впритул наблизилася до розчищення території таємничої долини. Інший асистент Майї та Сезама, Майлз, робить вдихи та розмовляє з перебоями, і його можна перервати під час розмови, подібно до голосового режиму OpenAI.

Sesame залучила нерозкриту суму капіталу від Andreessen Horowitz, Spark Capital та Matrix Partners. Окрім створення голосових помічників, компанія заявляє, що розробляє прототип окулярів зі штучним інтелектом, “призначених для носіння протягом усього дня”, якими будуть оснащені її кастомні моделі.

Sesame випускає свою базову модель штучного інтелекту

Не пропустіть

З’явився повністю електричний Jeep Recon

TikTok дозволить обрати кількість ШІ-контенту в стрічці

TikTok буде давати значки за обмеження думскролінгу

Target приєднується до списку роздрібних додатків OpenAI

EcoFlow TRAIL: презентація лінійки зарядних станцій для активного відпочинку