Новітня модель малих мов від Microsoft перевершує ChatGPT

0
866 views
Новітня модель малих мов від Microsoft перевершує ChatGPT

Зробивши несподіваний прорив, Microsoft представила свою останню мовну модель Phi-1, яка містить 1,3 мільярда параметрів. Всупереч загальноприйнятій думці, що більші моделі працюють краще, підхід Microsoft фокусується на якості навчальних даних. Phi-1, навчена на ретельно відібраному наборі даних “рівня підручника”, перевершила GPT-3.5 зі 100 мільярдами параметрів.

Час навчання моделі від Microsoft склав лише 4 дні

Мовна модель Microsoft Phi-1, побудована на архітектурі Transformer, привернула увагу своєю вражаючою продуктивністю. Команда розробників Phi-1 зробила акцент на якості навчальних даних, відійшовши від переважаючої тенденції до збільшення розміру стеку моделей. Використовуючи високоякісний набір даних, що складається з “підручникового” контенту, отриманого з Інтернету, команда Microsoft обробила інформацію за допомогою GPT-3.5. За допомогою 8 графічних процесорів Nvidia A100 процес навчання було завершено всього за чотири дні.

За словами представників Microsoft, зосередженість на підвищенні якості навчальних даних, а не на збільшенні кількості параметрів, дала багатообіцяючі результати. У порівняльних тестах Phi-1 досягла точності 50,6%, перевершивши показник GPT-3.5 на 47% при приголомшливих 175 мільярдах параметрів.

Microsoft планує відкрити вихідний код Phi-1 на HuggingFace, що ще більше посилить доступність і потенціал спільної роботи над цією мовною моделлю. Це не перший випадок, коли Microsoft розробляє меншу мовну модель; раніше вони представили Orca, модель з 13 мільярдами параметрів, навчену на синтетичних даних за допомогою GPT-4. Навіть Orca виявилася кращою за ChatGPT. Дослідницька стаття про Phi-1 була опублікована на arXiv, де детально описується її архітектура та методологія навчання. Для тих, хто зацікавлений у вивченні технічних аспектів, стаття пропонує всебічний огляд розвитку Phi-1.

Мовна модель Phi-1 від Microsoft кидає виклик уявленню про те, що збільшення розміру стеку є необхідним для покращення продуктивності. Зосередившись на високоякісних навчальних даних, Phi-1 продемонструвала неабияку точність, перевершивши навіть більші моделі. Відкритий код Phi-1 ще раз демонструє прихильність корпорації Майкрософт до прогресу в галузі обробки природної мови.