Вікіпедія намагається відмовити розробників штучного інтелекту від використання платформи, випустивши набір даних, спеціально оптимізований для навчання моделей штучного інтелекту. У середу Фонд Вікімедіа оголосив, що уклав партнерство з Kaggle – платформою для спільноти фахівців з науки про дані, яка належить Google і на якій розміщуються дані про машинне навчання – для публікації бета-версії набору даних “структурованого контенту Вікіпедії англійською та французькою мовами”.
Вікімедіа заявляє, що набір даних, розміщений на Kaggle, був “розроблений з урахуванням робочих процесів машинного навчання”, що полегшує розробникам ШІ доступ до машинозчитуваних даних статей для моделювання, точного налаштування, бенчмаркінгу, вирівнювання та аналізу. Вміст набору даних має відкриту ліцензію і станом на 15 квітня включає резюме досліджень, короткі описи, посилання на зображення, дані інфобоксів і розділи статей – за винятком посилань або неписьмових елементів, таких як аудіофайли.
“Добре структуровані JSON-представлення контенту Вікіпедії”, доступні користувачам Kaggle, повинні стати більш привабливою альтернативою “вилученню або синтаксичному аналізу необробленого тексту статті”, на думку Вікімедіа – проблемі, яка наразі створює навантаження на сервери Вікіпедії, оскільки автоматизовані боти зі штучним інтелектом невпинно споживають пропускну спроможність платформи. Wikimedia вже має угоди про обмін контентом з Google та Internet Archive, але партнерство з Kaggle має зробити ці дані більш доступними для менших компаній та незалежних дослідників даних.
“Як місце, куди спільнота машинного навчання звертається за інструментами та тестами, Kaggle надзвичайно радий стати хостом для даних Фонду Вікімедіа”, – сказала Бренда Флінн (Brenda Flynn), керівник відділу співпраці з партнерами Kaggle. “Kaggle радий зіграти свою роль у забезпеченні доступності, наявності та корисності цих даних”.