Українську LLM натренують на моделі Gemma 3 від Google

01.12.2025

756 views

Міністерство цифрової трансформації України спільно з «Київстар» обрали велику мовну модель Gemma 3 від Google як основу для тренування національної української LLM (Large Language Model).

Головне завдання — створити національну українську LLM на базі загальнодоступної open-source-моделі, попередньо навчивши її на унікальних українських даних. Це має мінімізувати лінгвістичні та етичні ризики.

“При виборі орієнтувалися на те, наскільки якісно модель вже опрацьовує тексти українською мовою та її контрольованість під час навчання. Це допоможе мінімізувати лінгвістичні та етичні ризики в нашій LLM”, – каже Данило Цьвок, Chief AI Officer Мінцифри.

🌟 Ключові переваги вибору Gemma 3

Вибір Gemma забезпечує оптимальний баланс між продуктивністю, якістю та ресурсами:

Перевага	Опис
Оптимальність	Найкраще співвідношення розміру та якості серед відкритих моделей при оптимальних інфраструктурних вимогах.
Багатомовність	Модель підтримує понад 140 мов, включно з українською, що значно спрощує її адаптацію.
Контекстне вікно	Має довге контекстне вікно — 128 тисяч токенів, що забезпечує точне та ефективне опрацювання великих обсягів тексту.
Мультимодальність	Можливість сприймати й аналізувати не лише текст, а й зображення.
Гнучкість	Наявність кількох розмірностей дозволяє гнучко обирати розмір моделі під конкретну сферу застосування.
Досвід використання	Модель успішно використовувалася для створення українськомовних LLM, зокрема Lapa LLM та MamayLM.

“Вибір Gemma забезпечує оптимальний баланс між продуктивністю та ресурсами, а також високу якість навчання української LLM. Модель підтримує понад 140 мов, включно з українською, має до 128 тисяч токенів, мультимодальні можливості та гнучку архітектуру, що дозволяє адаптувати її під різні завдання”, – зазначає Михайло Нестор, директор з розробки диджитал-продуктів Київстар.

🛠️ Плани з адаптації та донавчання

Для створення якісної української LLM заплановані такі кроки:

Удосконалення токенайзера: Покращення українського токенайзера для зменшення помилок при створенні україномовних текстів та оптимізації обчислювальних витрат.
Донавчання: Навчання моделі на унікальних україномовних текстах, які зараз збираються експертами.
Створення бенчмарків: Розробка спеціальних тестів для більш точного налаштування моделі для подальшого використання.

“Спираючись на успіх Gemma як бази для провідних українських LLM-моделей, ми налаштовані й надалі підтримувати цю ключову ініціативу, спрямовану на розвиток цифрового досвіду в Україні”, – підкреслює Кшиштоф Казьов, керівник з Customer Engineering Google Cloud у регіоні Центральної та Східної Європи.

Цей проєкт є стратегічною ініціативою, спрямованою на розвиток цифрового досвіду в Україні.

Українську LLM натренують на моделі Gemma 3 від Google

🌟 Ключові переваги вибору Gemma 3

🛠️ Плани з адаптації та донавчання

Не пропустіть

Direct to Cell від Київстар та SpaceX змінює правила гри

Honor 600 Pro проти Magic 8 Pro: що краще обрати

SOFTICO дослідила тренди українського IT-ринку на 2026 рік

AMD Ryzen 9 9950X3D2 Dual Edition – перший у світі процесор...

Дослідження Lenovo: студенти обирають ШІ-планшети