Дебати про бенчмаркінг АІ дійшли до покемонів

0
484 views
Дебати про бенчмаркінг АІ дійшли до покемонів

Минулого тижня вірусним стало повідомлення на X, в якому стверджувалося, що остання модель Gemini від Google перевершила флагманську модель Claude від Anthropic з оригінальної трилогії відеоігор про покемонів. Як повідомлялося, Gemini досягнув Лавандового міста у стрімі розробника в Twitch; Клод застряг на горі Місяць станом на кінець лютого.

Як зазначили користувачі Reddit, розробник, який підтримує потік Gemini, створив спеціальну міні-карту, яка допомагає моделі ідентифікувати “плитки” в грі, наприклад, дерева, які можна зрубати. Це зменшує потребу Gemini в аналізі скріншотів перед тим, як приймати ігрові рішення.

Отже, Pokémon – це в кращому випадку напівсерйозний бенчмарк ШІ: мало хто сперечатиметься, що він є дуже інформативним тестом можливостей моделі. Але це повчальний приклад того, як різні реалізації бенчмарку можуть впливати на результати.

Наприклад, Anthropic повідомила про два результати своєї нещодавньої моделі Anthropic 3.7 Sonnet на бенчмарку SWE-bench Verified, призначеному для оцінки здатності моделі до кодування. Claude 3.7 Sonnet досягла 62,3% точності на SWE-bench Verified, але 70,3% на “користувацькому риштуванні”, розробленому Anthropic.

Нещодавно Meta допрацювала версію однієї зі своїх нових моделей, Llama 4 Maverick, щоб вона добре працювала на конкретному бенчмарку, LM Arena. Ванільна версія моделі показує значно гірші результати на цьому ж тесті.

З огляду на те, що бенчмарки штучного інтелекту, включно з покемонами, від початку є недосконалими мірками, кастомні та нестандартні реалізації загрожують ще більше скаламутити воду. Іншими словами, навряд чи стане легше порівнювати моделі в міру їх випуску.