Guide Labs представляє новий тип інтерпретованого LLM

0
104 views
Guide Labs представляє новий тип інтерпретованого LLM

Проблема, пов’язана з розробкою моделі глибокого навчання, часто полягає в тому, щоб зрозуміти, чому вона робить те, що робить: чи то повторювані спроби xAI налагодити дивну політику Grok, чи то боротьба ChatGPT з підлабузництвом, чи то звичайні галюцинації, але розібратися в нейронній мережі з мільярдами параметрів нелегко.

Guide Labs, стартап із Сан-Франциско, заснований генеральним директором Джуліусом Адебайо та головним науковим співробітником Аєю Абдельсалам Ісмаїл, сьогодні пропонує відповідь на цю проблему. У понеділок компанія оприлюднила 8-мільярдний параметр LLM, Steerling-8B, навчений за допомогою нової архітектури, розробленої для того, щоб його дії були легко інтерпретовані: кожен токен, створений моделлю, можна простежити до його походження в навчальних даних LLM.

Це може бути так просто, як визначення довідкових матеріалів для фактів, на які посилається модель, або так складно, як розуміння моделі гумору чи гендеру.

«Якщо у мене є трильйон способів кодування гендеру, і я кодую його в 1 мільярді з 1 трильйона речей, які у мене є, ви повинні переконатися, що ви знайшли всі ці 1 мільярд речей, які я закодував, а потім ви повинні бути в змозі надійно вмикати та вимикати їх», — сказав Адебайо TechCrunch. «Ви можете зробити це за допомогою сучасних моделей, але це дуже нестабільно… Це свого роду одне з питань про Святий Грааль».

Адебайо розпочав цю роботу, здобуваючи ступінь доктора філософії в MIT, ставши співавтором широко цитованої статті 2018 року, яка показала, що існуючі методи розуміння моделей глибокого навчання не є надійними. Ця робота в кінцевому підсумку привела до створення нового способу побудови LLM: розробники вставляють у модель концептуальний шар, який розподіляє дані на відстежувані категорії. Це вимагає більшої попередньої анотації даних, але за допомогою інших моделей штучного інтелекту вони змогли навчити цю модель як найбільший доказ концепції на сьогоднішній день.

«Інтерпретація, яку роблять люди, — це … нейробіологія на моделі, а ми перевертаємо це», — сказав Адебайо. «Насправді ми розробляємо модель з нуля, щоб вам не потрібно було займатися нейробіологією».

Одне з занепокоєнь щодо цього підходу полягає в тому, що він може усунути деякі нові форми поведінки, які роблять LLM такими цікавими: їхню здатність узагальнювати по-новому речі, на яких вони ще не були навчені. Адебайо каже, що це все ще відбувається в моделі його компанії: його команда відстежує те, що вони називають «відкритими концепціями», які модель відкрила самостійно, наприклад квантові обчислення.

Адебайо стверджує, що така інтерпретована архітектура буде потрібна кожному. Для LLM, орієнтованих на споживачів, ці техніки повинні дозволити розробникам моделей блокувати використання матеріалів, захищених авторським правом, або краще контролювати результати щодо таких тем, як насильство або зловживання наркотиками. Регульовані галузі потребуватимуть більш контрольованих LLM — наприклад, у фінансах — де модель, що оцінює заявників на отримання кредиту, повинна враховувати такі фактори, як фінансові записи, але не расу. Інтерпретованість також необхідна в науковій роботі — ще одній галузі, в якій Guide Labs розробила технологію. Складання білків стало великим успіхом для моделей глибокого навчання, але вчені потребують більш глибокого розуміння того, чому їхнє програмне забезпечення визначило перспективні комбінації.

«Ця модель демонструє, що навчання інтерпретованих моделей більше не є наукою; тепер це інженерна проблема», — сказав Адебайо. «Ми розібралися в науці і можемо масштабувати їх, і немає жодних причин, чому така модель не могла б відповідати продуктивності моделей найвищого рівня», які мають набагато більше параметрів.

Guide Labs стверджує, що Steerling-8B може досягти 90% можливостей існуючих моделей, але використовує менше даних для навчання завдяки своїй новій архітектурі. Наступним кроком для компанії, яка виникла з Y Combinator і в листопаді 2024 року залучила 9 мільйонів доларів стартового капіталу від Initialized Capital, є створення більшої моделі та початок надання користувачам API та агентного доступу.

«Спосіб, яким ми зараз навчаємо моделі, є надзвичайно примітивним, тому демократизація вродженої інтерпретованості насправді буде довгостроковою користю для нашої ролі в людстві», — сказав Адебайо TechCrunch. «Оскільки ми прагнемо створити надзвичайно інтелектуальні моделі, ви не хочете, щоб щось, що є для вас загадкою, приймало рішення від вашого імені».