Некомерційний Центр безпеки штучного інтелекту (CAIS) і компанія Scale AI, яка надає послуги з маркування даних і розробки штучного інтелекту, випустили новий складний тест для передових систем штучного інтелекту.
Тест під назвою “Останній іспит людства” включає в себе тисячі краудсорсингових запитань з математики, гуманітарних та природничих дисциплін. Для того, щоб ускладнити оцінювання, питання представлені в різних форматах, включаючи формати, що включають діаграми та зображення.
У попередньому дослідженні жодна з наявних у відкритому доступі флагманських систем штучного інтелекту не змогла набрати більше 10% на “Останньому іспиті людства”.
CAIS та Scale AI кажуть, що планують відкрити цей бенчмарк для дослідницької спільноти, щоб дослідники могли “глибше вивчити варіації” та оцінити нові моделі ШІ.