Багатомовні мовленнєві проекти являють собою значний крок уперед у розвитку мовних технологій і просуванні глобального мовного розмаїття. У цих проектах використовуються мовні моделі штучного інтелекту для розпізнавання та генерування мовлення на широкому спектрі мов, які часто охоплюють тисячі різноманітних мов. Використовуючи інноваційні підходи, такі як включення нетрадиційних джерел даних або використання самоконтрольованого навчання репрезентації мовлення, багатомовні мовленнєві проекти спрямовані на подолання бар’єрів і розширення можливостей людей для спілкування, навчання та доступу до інформації рідною мовою.
Компанія Meta вирішила випустити MMS як проект із відкритим кодом
Meta розгорнула нову роботу в мовних моделях штучного інтелекту з революційним проектом Massively Multilingual Speech (MMS), що відрізняє його від простих копій ChatGPT. Здійснюючи безпрецедентний крок до інновацій, MMS від Meta може похвалитися здатністю розпізнавати та генерувати мовлення на вражаючому наборі з понад 4000 розмовних мов, перевершуючи можливості своїх попередників. Не задовольняючись приховуванням цього прориву, Meta вирішила створити MMS з відкритим кодом, запросивши дослідників використати та розширити її основу. Роблячи це, Meta прагне керувати збереженням мовного розмаїття та заохочувати спільне просування в цій галузі.
Традиційні моделі розпізнавання мовлення та синтезу мовлення вимагають тривалого навчання на величезних наборах аудіоданих із ретельними мітками транскрипції, які полегшують алгоритми машинного навчання. Проте багатьом мовам, які перебувають під загрозою зникнення, переважно за межами промислово розвинутих країн, бракує таких вичерпних даних, що ставить їх під загрозу повного зникнення. Визнаючи це скрутне становище, Мета застосував геніальний підхід, звернувшись до перекладених релігійних текстів. Ці тексти, як і Біблія, пропонують різноманітні мовні переклади, які пройшли ретельну перевірку для досліджень перекладу на мову тексту.
Застосовуючи модель wav2vec 2.0 для самостійного навчання репрезентації мовлення, Meta ще більше покращила зручність використання даних шляхом навчання моделі вирівнювання. Синергія між неортодоксальними джерелами даних і самоконтрольованим моделюванням мовлення дала чудові результати. Порівняльні оцінки з Whisper OpenAI показали перевагу MMS, досягнувши 50% зниження рівня помилок у словах, перевершуючи мовне охоплення Whisper у приголомшливий коефіцієнт 11.
З випуском MMS як дослідницького проекту з відкритим вихідним кодом Meta прагне змінити тривожну тенденцію, коли технології підривають мовне розмаїття, часто обмежуючи підтримку найпоширеніших 100 мовами, які віддають перевагу технологічним гігантам. Уявляючи світ, у якому допоміжні технології, перетворення тексту в мову та навіть технології віртуальної та доповненої реальності дозволяють людям спілкуватися та навчатися рідною мовою, Meta сподівається надихнути на збереження та життєздатність мов у всьому світі.