Дебати про бенчмаркінг АІ дійшли до покемонів

15.04.2025

593 views

Минулого тижня вірусним стало повідомлення на X, в якому стверджувалося, що остання модель Gemini від Google перевершила флагманську модель Claude від Anthropic з оригінальної трилогії відеоігор про покемонів. Як повідомлялося, Gemini досягнув Лавандового міста у стрімі розробника в Twitch; Клод застряг на горі Місяць станом на кінець лютого.

Як зазначили користувачі Reddit, розробник, який підтримує потік Gemini, створив спеціальну міні-карту, яка допомагає моделі ідентифікувати “плитки” в грі, наприклад, дерева, які можна зрубати. Це зменшує потребу Gemini в аналізі скріншотів перед тим, як приймати ігрові рішення.

Отже, Pokémon – це в кращому випадку напівсерйозний бенчмарк ШІ: мало хто сперечатиметься, що він є дуже інформативним тестом можливостей моделі. Але це повчальний приклад того, як різні реалізації бенчмарку можуть впливати на результати.

Наприклад, Anthropic повідомила про два результати своєї нещодавньої моделі Anthropic 3.7 Sonnet на бенчмарку SWE-bench Verified, призначеному для оцінки здатності моделі до кодування. Claude 3.7 Sonnet досягла 62,3% точності на SWE-bench Verified, але 70,3% на “користувацькому риштуванні”, розробленому Anthropic.

Нещодавно Meta допрацювала версію однієї зі своїх нових моделей, Llama 4 Maverick, щоб вона добре працювала на конкретному бенчмарку, LM Arena. Ванільна версія моделі показує значно гірші результати на цьому ж тесті.

З огляду на те, що бенчмарки штучного інтелекту, включно з покемонами, від початку є недосконалими мірками, кастомні та нестандартні реалізації загрожують ще більше скаламутити воду. Іншими словами, навряд чи стане легше порівнювати моделі в міру їх випуску.

Дебати про бенчмаркінг АІ дійшли до покемонів

Не пропустіть

ОРРО пропонує знижки до Міжнародного дня боротьби за права жінок

Планшет Samsung: функционал и возможности нового уровня

GIGABYTE GO27Q24 та GO27Q24A: QD-OLED 240Hz QHD — ідеально для Counter-Strike...

REAL-EL RM-380W – тиха мишка з кнопкою робочого столу

Ajax Systems здобула дві нагороди на iF DESIGN AWARD 2026