Українську LLM натренують на моделі Gemma 3 від Google

0
68 views
Українську LLM натренують на моделі Gemma 3 від Google

Міністерство цифрової трансформації України спільно з «Київстар» обрали велику мовну модель Gemma 3 від Google як основу для тренування національної української LLM (Large Language Model).

Головне завдання — створити національну українську LLM на базі загальнодоступної open-source-моделі, попередньо навчивши її на унікальних українських даних. Це має мінімізувати лінгвістичні та етичні ризики.

“При виборі орієнтувалися на те, наскільки якісно модель вже опрацьовує тексти українською мовою та її контрольованість під час навчання. Це допоможе мінімізувати лінгвістичні та етичні ризики в нашій LLM”, – каже Данило Цьвок, Chief AI Officer Мінцифри.

🌟 Ключові переваги вибору Gemma 3

Вибір Gemma забезпечує оптимальний баланс між продуктивністю, якістю та ресурсами:

Перевага Опис
Оптимальність Найкраще співвідношення розміру та якості серед відкритих моделей при оптимальних інфраструктурних вимогах.
Багатомовність Модель підтримує понад 140 мов, включно з українською, що значно спрощує її адаптацію.
Контекстне вікно Має довге контекстне вікно — 128 тисяч токенів, що забезпечує точне та ефективне опрацювання великих обсягів тексту.
Мультимодальність Можливість сприймати й аналізувати не лише текст, а й зображення.
Гнучкість Наявність кількох розмірностей дозволяє гнучко обирати розмір моделі під конкретну сферу застосування.
Досвід використання Модель успішно використовувалася для створення українськомовних LLM, зокрема Lapa LLM та MamayLM.

“Вибір Gemma забезпечує оптимальний баланс між продуктивністю та ресурсами, а також високу якість навчання української LLM. Модель підтримує понад 140 мов, включно з українською, має до 128 тисяч токенів, мультимодальні можливості та гнучку архітектуру, що дозволяє адаптувати її під різні завдання”, – зазначає  Михайло Нестор, директор з розробки диджитал-продуктів Київстар.

Google Gemma 3

🛠️ Плани з адаптації та донавчання

Для створення якісної української LLM заплановані такі кроки:

  1. Удосконалення токенайзера: Покращення українського токенайзера для зменшення помилок при створенні україномовних текстів та оптимізації обчислювальних витрат.

  2. Донавчання: Навчання моделі на унікальних україномовних текстах, які зараз збираються експертами.

  3. Створення бенчмарків: Розробка спеціальних тестів для більш точного налаштування моделі для подальшого використання.

“Спираючись на успіх Gemma як бази для провідних українських LLM-моделей, ми налаштовані й надалі підтримувати цю ключову ініціативу, спрямовану на розвиток цифрового досвіду в Україні”, – підкреслює Кшиштоф Казьов, керівник з Customer Engineering Google Cloud у регіоні Центральної та Східної Європи.

Цей проєкт є стратегічною ініціативою, спрямованою на розвиток цифрового досвіду в Україні.