На вихідних компанія Meta представила дві нові моделі Llama 4: меншу модель під назвою Scout і Maverick, модель середнього розміру, яка, як стверджує компанія, може перевершити GPT-4o і Gemini 2.0 Flash “в широкому діапазоні широко відомих тестів”.
Maverick швидко зайняв друге місце на LMArena, сайті з тестування штучного інтелекту, де люди порівнюють результати роботи різних систем і голосують за найкращу з них. У прес-релізі Meta компанія підкреслила, що показник ELO Maverick становить 1417 балів, що ставить його вище OpenAI (4o) і трохи нижче Gemini 2.5 Pro. (Вищий показник ELO означає, що модель частіше перемагає на арені, коли йде віч-на-віч з конкурентами).
Здавалося, це досягнення позиціонувало відкриту модель Llama 4 від Meta як серйозного конкурента найсучаснішим закритим моделям від OpenAI, Anthropic і Google. Але дослідники ШІ, копаючись у документації Meta, виявили дещо незвичне.
Дрібним шрифтом Meta визнає, що версія Maverick, протестована на LMArena, відрізняється від загальнодоступної. Згідно з власними матеріалами Meta, вона розгорнула на LMArena “експериментальну чат-версію” Maverick, яка була спеціально “оптимізована для розмовної мови”, про що вперше повідомив TechCrunch.
“Інтерпретація Meta нашої політики не відповідала тому, що ми очікуємо від постачальників моделей”, – написала LMArena на X через два дні після випуску моделі. “Мета повинна була чітко пояснити, що “Llama-4-Maverick-03-26-Experimental” – це кастомізована модель, оптимізована під людські вподобання. В результаті цього ми оновлюємо нашу політику щодо таблиць лідерів, щоб посилити нашу прихильність до справедливих, відтворюваних оцінок, щоб така плутанина не виникала в майбутньому”.
Представник Meta, Ешлі Габріель, повідомила в електронному листі, що “ми експериментуємо з усіма типами користувацьких варіантів”.
“”Llama-4-Maverick-03-26-Experimental” – це оптимізована для чату версія, з якою ми експериментували і яка також добре працює на LMArena”, – сказав Габріель. “Зараз ми випустили нашу версію з відкритим вихідним кодом і подивимося, як розробники адаптують Llama 4 для своїх власних випадків використання. Ми з нетерпінням чекаємо на те, що вони створять, і з нетерпінням чекаємо на їхні відгуки”.
Хоча те, що Meta зробила з Maverick, прямо не суперечить правилам LMArena, сайт поділився занепокоєнням щодо зловживань системою і вжив заходів, щоб “запобігти надмірному налаштуванню і витоку інформації про результати тестування”. Коли компанії можуть надавати спеціально налаштовані версії своїх моделей для тестування, одночасно випускаючи різні версії для громадськості, рейтинги бенчмарків, такі як LMArena, стають менш значущими як показники реальної продуктивності.
“Це найбільш шанований загальний бенчмарк, тому що всі інші – відстій, – розповідає The Verge незалежний дослідник ШІ Саймон Віллісон. “Коли вийшла Llama 4, той факт, що вона посіла друге місце, одразу після Gemini 2.5 Pro, мене дуже вразив, і я картаю себе за те, що не прочитав дрібний шрифт”.
Незабаром після того, як Meta випустила Maverick і Scout, в AI-спільноті заговорили про чутки, що Meta також навчила свої моделі Llama 4 краще працювати на бенчмарках, приховуючи при цьому їхні реальні обмеження. Віце-президент з генеративного ШІ в Meta Ахмад Аль-Дале відповів на ці звинувачення в пості на X: “Ми також чули заяви про те, що ми тренувалися на тестових наборах – це просто неправда, і ми б ніколи так не вчинили. Наше найкраще розуміння полягає в тому, що змінна якість, яку бачать люди, пов’язана з необхідністю стабілізації реалізацій”.
Дехто також помітив, що Llama 4 була випущена в дивний час. Субота не має тенденції до виходу великих новин у сфері ШІ. Після того, як хтось у Threads запитав, чому Llama 4 вийшла на вихідних, генеральний директор Meta Марк Цукерберг відповів: “Це тому, що вона була готова: “Саме тоді він був готовий”.
“Загалом, це дуже заплутаний реліз, – каже Віллісон, який уважно стежить за моделями ШІ та документує їх. “Оцінка моделі, яку ми там отримали, для мене абсолютно нічого не варта. Я навіть не можу використовувати модель, за яку вони отримали високу оцінку”.
Шлях Meta до випуску Llama 4 був не зовсім гладким. Згідно з нещодавнім звітом The Information, компанія неодноразово відкладала запуск через те, що модель не відповідала внутрішнім очікуванням. Ці очікування особливо зросли після того, як DeepSeek, китайський стартап з відкритим вихідним кодом у сфері ШІ, випустив модель з відкритою вагою, яка викликала багато галасу.
Зрештою, використання оптимізованої моделі в LMArena ставить розробників у складне становище. Вибираючи такі моделі, як Llama 4, для своїх додатків, вони, природно, орієнтуються на бенчмарки. Але, як і у випадку з Maverick, ці бенчмарки можуть відображати можливості, яких насправді немає в моделях, доступних широкому загалу.
У цьому епізоді показано, як у міру прискорення розвитку ШІ бенчмарки стають полем битви. Він також показує, як компанія Meta прагне, щоб її вважали лідером у галузі ШІ, навіть якщо це означає грати з системою.