Pruna AI, європейський стартап, який працює над алгоритмами стиснення моделей штучного інтелекту, в четвер робить свій фреймворк для оптимізації з відкритим вихідним кодом.
Pruna AI створює фреймворк, який застосовує кілька методів підвищення ефективності, таких як кешування, обрізання, квантування та дистиляція, до заданої моделі ШІ.
“Ми також стандартизуємо збереження та завантаження стиснутих моделей, застосування комбінацій цих методів стиснення, а також оцінку вашої стисненої моделі після її стиснення”, – розповів TechCrunch співзасновник і технічний директор Pruna AI Джон Рачван.
Зокрема, фреймворк Pruna AI може оцінити, чи є значна втрата якості після стиснення моделі, а також приріст продуктивності, який ви отримуєте.
“Якщо використати метафору, ми схожі на те, як Hugging Face стандартизував трансформатори та дифузори – як їх називати, як зберігати, завантажувати тощо. Ми робимо те ж саме, але для методів ефективності”, – додав він.
Великі лабораторії ШІ вже використовують різні методи стиснення. Наприклад, OpenAI використовує дистиляцію для створення швидших версій своїх флагманських моделей.
Ймовірно, саме так OpenAI розробив GPT-4 Turbo, швидшу версію GPT-4. Аналогічно, модель генерації зображень Flux.1-schnell є дистильованою версією моделі Flux.1 від Black Forest Labs.
Дистиляція – це метод, який використовується для вилучення знань з великої моделі ШІ за допомогою моделі “вчитель-учень”. Розробники надсилають запити до моделі-вчителя і записують результати. Іноді відповіді порівнюються з набором даних, щоб побачити, наскільки вони точні. Ці результати потім використовуються для навчання моделі учня, яка навчається наближено відтворювати поведінку вчителя.
“Великі компанії, як правило, створюють все це власними силами. А те, що ви можете знайти у світі з відкритим кодом, зазвичай базується на окремих методах. Наприклад, скажімо, один метод квантування для LLM, або один метод кешування для моделей дифузії”, – каже Рахван. “Але ви не можете знайти інструмент, який об’єднує всі ці методи, робить їх простими у використанні та об’єднує їх разом. І в цьому полягає велика цінність, яку зараз приносить Pruna”.
Хоча Pruna AI підтримує будь-які моделі, від великих мовних моделей до моделей дифузії, моделей перетворення мови в текст і моделей комп’ютерного зору, зараз компанія зосереджується на моделях генерації зображень і відео.
Серед існуючих користувачів Pruna AI – Scenario та PhotoRoom. Крім версії з відкритим вихідним кодом, Pruna AI пропонує корпоративну версію з розширеними функціями оптимізації, зокрема агентом оптимізації.
“Найцікавішою функцією, яку ми незабаром випустимо, буде агент стиснення”, – сказав Рачван. По суті, ви даєте йому свою модель і кажете: “Я хочу більшої швидкості, але не знижуйте мою точність більше ніж на 2%”. І тоді агент просто зробить свою магію. Він знайде для вас найкращу комбінацію, поверне вам її. Вам не потрібно нічого робити як розробнику”.
Pruna AI бере погодинну оплату за свою про-версію. “Це схоже на те, як ви думаєте про графічний процесор, коли орендуєте його в AWS або будь-якому іншому хмарному сервісі, – каже Рачван.
І якщо ваша модель є критично важливою частиною вашої інфраструктури ШІ, ви в кінцевому підсумку заощадите багато грошей на висновках за допомогою оптимізованої моделі. Наприклад, Pruna AI зменшила модель лами у вісім разів без особливих втрат за допомогою свого фреймворку стиснення. Pruna AI сподівається, що її клієнти будуть думати про її фреймворк стиснення як про інвестицію, яка окупить себе.
Кілька місяців тому Pruna AI залучила $6,5 млн посівного фінансування. Серед інвесторів стартапу – EQT Ventures, Daphni, Motier Ventures та Kima Ventures.