В Google Перекладачі з’явилася кримськотатарська мова

0
342 views
В Google Перекладачі з’явилася кримськотатарська мова

Google Перекладач руйнує мовні бар’єри, допомагаючи людям спілкуватися та краще розуміти світ навколо. Інтернет-гігант постійно впроваджує новітні технології, щоб більше людей мали доступ до цього інструменту: у 2022 році додали 24 нові мови, використовуючи підхід Zero-Shot Machine Translation, де модель машинного навчання вчиться перекладати на іншу мову, навіть якщо не бачить прикладу.

Google також анонсував ініціативу «1000 мов», яка передбачає створення моделей штучного інтелекту, що підтримуватимуть 1000 найпоширеніших мов світу.

Сьогодні компанія використовує штучний інтелект, щоб розширити різноманітність мов, що підтримуються. Завдяки великій мовній моделі PaLM 2 команда починає додавати 110 нових мов до Google Перекладача, що є найбільшим розширенням за всю історію.

Підтримка перекладу для більш ніж півмільярда людей

На мовах від кантонської до кекчі розмовляють понад 614 мільйонів носіїв, що відкриває доступ до перекладу для близько 8% населення світу. Деякі з цих мов є одними з найбільших світових мов з більш ніж 100 мільйонами носіїв. Іншими мовами розмовляють невеликі громади корінних народів, а деякі майже не мають носіїв мови, але тривають активні зусилля щодо їхнього відродження. Близько чверті нових мов походять з Африки, що є найбільшим розширенням африканських мов на сьогоднішній день, зокрема фон, кіконго, луо, га, сваті, венда та волоф.

Ось деякі з нових мов, які будуть підтримуватись в Google Перекладачі:

  • Афар – це тональна мова, якою розмовляють у Джибуті, Еритреї та Ефіопії. З усіх мов, запущених цього разу, афар мала найбільший внесок від спільноти волонтерів.

  • Кантонська мова вже давно є однією з найбільш запитуваних мов для Google Перекладача. Але є певні складності, оскільки на письмі вона часто перетинається з мандаринською, що ускладнює пошук даних та навчання моделей.

  • Кримськотатарська мова –  тюркська мова, рідна мова кримських татар. Сьогодні кримськотатарська належить до мов, що потребує додаткового захисту за класифікацією UNESCO. У січні 2023 року в Україні було створено Національну комісію з питань кримськотатарської мови, що має її захищати.

  • Менська – це кельтська мова острова Мен. Вона майже зникла зі смертю останнього носія мови у 1974 році. Але завдяки руху з відродження мови на острові, зараз нею розмовляють тисячі людей.

  • Нко – це стандартизована форма західноафриканських мов мандінка, яка об’єднує багато діалектів в одну спільну мову. Її унікальний алфавіт був винайдений у 1949 році, і сьогодні вона має активну дослідницьку спільноту, яка розробляє для неї ресурси та технології.

  • Панджабі (Шахмукхі) – це різновид панджабі, що пишеться персько-арабським письмом (шахмукхі), і є найпоширенішою мовою в Пакистані.

  • Тамазігська мова (амазігська) – це берберська мова, якою розмовляють у Північній Африці. Хоча існує багато діалектів, письмова форма, як правило, взаємозрозуміла. Вона пишеться латинським письмом та письмом тифінаг, обидва з яких підтримує Google Перекладач.

  • Ток-пісін – це креольська мова на  основі англійської та мова міжнаціонального спілкування Папуа-Нової Гвінеї. Якщо ви розмовляєте англійською, спробуйте перекласти на ток-пісін – можливо, ви зможете зрозуміти значення!

Як Google обирає нові мови

Як Google обирає нові мови

Існує багато факторів, які слід враховувати, додаючи нові мови до Перекладача – від того, які різновиди мов ми пропонуємо, до того, які конкретні варіанти написання ми використовуємо.

Мови мають величезну кількість варіацій: регіональні різновиди, діалекти, різні стандарти орфографії. Насправді, багато мов не мають жодної стандартної форми, тому неможливо вибрати “правильний” варіант. Підхід Google полягає в тому, щоб надавати пріоритет найбільш вживаним різновидам кожної мови. Наприклад, ромська мова має багато діалектів по всій Європі. Моделі створюють текст, найбільш близький до південно-влахської ромської, різновиду, який широко використовується в Інтернеті. Але він також містить елементи з інших діалектів, таких як північно-влахська та балканська ромська.

PaLM 2 є ключовим елементом головоломки, допомагаючи Перекладачу ефективніше вивчати мови, тісно пов’язані одна з одною, зокрема мови, близькі до хінді, як-от авадхі та марваді, і французькі креольські, як-от сейшельська креольська та маврикійська креольська. У міру розвитку технологій, а також у зв’язку з тим, що розробники продовжують співпрацювати з експертами-лінгвістами та носіями мови, з часом буде підтримуватися ще більше мовних різновидів і правил правопису.

Відвідайте Довідковий центр, щоб дізнатися більше про ці нові мови, що підтримуються. І почніть перекладати на translate.google.com або в додатку Google Перекладач на Android та iOS.