Новий тест AGI ставить у глухий кут більшість моделей ШІ

0
515 views
Новий тест AGI ставить у глухий кут більшість моделей ШІ

Фонд Arc Prize Foundation, некомерційна організація, співзасновником якої є видатний дослідник ШІ Франсуа Шолле, оголосив у своєму блозі в понеділок, що створив новий, складний тест для вимірювання загального інтелекту провідних моделей ШІ.

Поки що новий тест під назвою ARC-AGI-2 ставить більшість моделей у глухий кут.

“Міркувальні” ШІ-моделі, такі як o1-pro від OpenAI і R1 від DeepSeek, набрали від 1% до 1,3% на ARC-AGI-2, згідно з таблицею лідерів Arc Prize. Потужні нерозумні моделі, такі як GPT-4.5, Claude 3.7 Sonnet і Gemini 2.0 Flash, набрали близько 1%.

Тести ARC-AGI складаються з головоломок, в яких ШІ повинен ідентифікувати візуальні патерни з набору різнокольорових квадратів і згенерувати правильну сітку “відповідей”. Завдання були розроблені таким чином, щоб змусити ШІ адаптуватися до нових проблем, з якими він раніше не стикався.

Фонд Arc Prize Foundation запросив понад 400 людей пройти ARC-AGI-2, щоб встановити базовий рівень людини. У середньому “панелі” з цих людей правильно відповіли на 60% запитань тесту – набагато краще, ніж будь-яка з моделей.

У своєму дописі на X Шолле стверджує, що ARC-AGI-2 є кращим показником реального інтелекту АІ-моделі, ніж перша ітерація тесту, ARC-AGI-1. Тести Фонду Arc Prize спрямовані на оцінку того, чи може ШІ-система ефективно набувати нових навичок за межами даних, на яких вона навчалася.

Шолле зазначив, що на відміну від ARC-AGI-1, новий тест не дозволяє ШІ-моделям покладатися на “грубу силу” – велику обчислювальну потужність – для пошуку рішень. Шолле раніше визнавав, що це було основним недоліком ARC-AGI-1.

Щоб усунути недоліки першого тесту, ARC-AGI-2 вводить нову метрику: ефективність. Він також вимагає від моделей інтерпретувати закономірності на льоту, а не покладатися на запам’ятовування.

“Інтелект не визначається виключно здатністю вирішувати проблеми або досягати високих результатів, – написав у своєму блозі співзасновник Arc Prize Foundation Грег Камрадт. “Ефективність, з якою ці здібності набуваються і застосовуються, є вирішальним, визначальним компонентом. Основне питання, яке ми ставимо, полягає не лише в тому, “Чи може ШІ набути навичок для вирішення завдання?”, але й у тому, “З якою ефективністю або за яку ціну?”

ARC-AGI-1 був непереможним протягом приблизно п’яти років, до грудня 2024 року, коли OpenAI випустила свою вдосконалену модель міркувань o3, яка перевершила всі інші моделі ШІ та зрівнялася з людськими показниками в оцінюванні. Однак, як ми вже зазначали, підвищення продуктивності o3 на ARC-AGI-1 прийшло з великою ціною.

Версія o3 моделі OpenAI – o3 (low), яка першою досягла нових висот на ARC-AGI-1, набравши 75,7% на тесті, отримала жалюгідні 4% на ARC-AGI-2, використовуючи обчислювальну потужність вартістю $200 на завдання.