Гарвард випустив мільйон книг для навчання ШІ-моделей

0
572 views
Гарвард випустив 1 мільйон книг для навчання ШІ-моделей

У четвер університет оголосив про запуск набору даних, що містить майже мільйон книг з відкритих джерел, які можна використовувати для навчання моделей штучного інтелекту. В рамках новоствореної Ініціативи інституційних даних проект отримав фінансування від Microsoft та OpenAI і містить книги, відскановані за допомогою Google Books, які є достатньо старими, щоб їхній захист авторських прав закінчився.

У статті Wired про новий проект йдеться про те, що набір даних включає широкий спектр книг, серед яких “класика від Шекспіра, Чарльза Діккенса і Данте, а також маловідомі чеські підручники з математики та валлійські кишенькові словники”. Як правило, захист авторських прав триває протягом життя автора плюс ще 70 років.

Фундаментальні мовні моделі, такі як ChatGPT, які поводяться як справжні люди, потребують величезної кількості високоякісного тексту для свого навчання – як правило, чим більше інформації вони отримують, тим краще моделі імітують людей і надають знання. Але ця жага до даних спричинила проблеми, оскільки такі програми, як OpenAI, впираються в стіну щодо того, скільки нової інформації вони можуть знайти – принаймні, не викрадаючи її.

Видавці, серед яких Wall Street Journal і New York Times, подали до суду на OpenAI і конкурента Perplexity за отримання їхніх даних без дозволу. Прихильники ШІ-компаній наводять різні аргументи на захист своєї діяльності. Іноді вони кажуть, що люди самі створюють нові твори на основі вивчення та синтезу матеріалу з інших джерел, і ШІ нічим не відрізняється від них. Усі ходять до школи, читають книжки, а потім створюють нові твори, використовуючи отримані знання. Реміксинг юридично вважається добросовісним використанням, якщо нове творіння суттєво відрізняється від попереднього. Але це не враховує, що людина не може проковтнути мільярди шматків тексту зі швидкістю, яку може комп’ютер, тож це не зовсім справедливе порівняння. The Wall Street Journal у своєму позові проти Perplexity заявив, що стартап “копіює у величезних масштабах”.

Гравці у цій сфері також висунули аргумент, що будь-який контент, доступний у відкритому доступі, по суті, є чесною грою, і що користувач чат-бота отримує доступ до захищеного авторським правом контенту, запитуючи його за допомогою підказки. По суті, чат-бот на кшталт Perplexity схожий на веб-браузер. Мине деякий час, перш ніж ці аргументи дійдуть до суду.

У відповідь на критику OpenAI уклав угоди з деякими постачальниками контенту, а Perplexity розгорнув партнерську програму з видавцями, що підтримується рекламою. Але зрозуміло, що вони зробили це не без заздрощів.

У той самий час, коли у компаній, що займаються розробкою ШІ, закінчується новий контент для використання, загальновживані веб-джерела, які вже включені в навчальні набори, швидко почали обмежувати доступ до них. Такі компанії, як Reddit і X, активно боролися з обмеженням використання своїх даних, оскільки усвідомлювали їхню величезну цінність, особливо в отриманні даних у реальному часі для доповнення фундаментальних моделей більш актуальною інформацією про світ.

Reddit заробляє сотні мільйонів доларів, ліцензуючи свій корпус субреддитів і коментарів Google для навчання своїх моделей. X Ілона Маска має ексклюзивну угоду з іншою його компанією, xAI, щоб надати своїм моделям доступ до контенту соціальної мережі для навчання та пошуку актуальної інформації. Трохи іронічно вважати, що ці компанії ретельно охороняють власні дані, але по суті вважають, що контент від медіа-видавців не має ніякої цінності і повинен бути безкоштовним.

Мільйона книжок не вистачить, щоб задовольнити навчальні потреби будь-якої АІ-компанії, особливо якщо врахувати, що ці книжки старі і не містять сучасної інформації, наприклад, сленгу, яким користуються діти покоління Z. Щоб відрізнити себе від конкурентів, АІ-компанії захочуть продовжувати отримувати доступ до інших даних – особливо ексклюзивних – тому вони не будуть створювати однакові моделі. Набір даних Ініціативи інституційних даних може принаймні запропонувати певну допомогу AI-компаніям, які намагаються навчити свої початкові базові моделі, не потрапляючи при цьому в юридичні халепи.