Модель, DeepSeek V3, була розроблена компанією DeepSeek і випущена в середу за ліцензією, що дозволяє розробникам завантажувати і модифікувати її для більшості застосувань, в тому числі комерційних.
DeepSeek V3 може впоратися з низкою текстових робочих навантажень і завдань, таких як кодування, переклад, написання есе та електронних листів на основі описової підказки.
Згідно з внутрішнім бенчмарк-тестуванням DeepSeek, DeepSeek V3 перевершує як завантажувані, “відкрито” доступні моделі, так і “закриті” моделі ШІ, доступ до яких можна отримати лише через API. У підгрупі змагань з програмування, що проводяться на платформі Codeforces, DeepSeek випереджає інші моделі, зокрема Llama 3.1 405B від Meta, GPT-4o від OpenAI та Qwen 2.5 72B від Alibaba.
DeepSeek V3 також випереджає конкурентів у тесті Aider Polyglot, призначеному, серед іншого, для вимірювання того, чи може модель успішно писати новий код, який інтегрується в існуючий код.
DeepSeek стверджує, що DeepSeek V3 був навчений на наборі даних з 14,8 трильйонів токенів. У науці про дані токени використовуються для представлення бітів необроблених даних – 1 мільйон токенів дорівнює приблизно 750 000 слів.
Масштабною є не лише навчальна вибірка. DeepSeek V3 має величезний розмір: 671 мільярд параметрів, або 685 мільярдів на платформі для розробки ШІ Hugging Face. (Параметри – це внутрішні змінні, які моделі використовують для прогнозування або прийняття рішень). Це приблизно в 1,6 рази більше, ніж у Llama 3.1 405B, яка має 405 мільярдів параметрів.
Кількість параметрів часто (але не завжди) корелює з майстерністю; моделі з більшою кількістю параметрів, як правило, перевершують моделі з меншою кількістю параметрів. Але великі моделі також потребують потужнішого апаратного забезпечення для запуску. Неоптимізована версія DeepSeek V3 потребувала б банку високопродуктивних графічних процесорів, щоб відповідати на питання з розумною швидкістю.
Хоча це не найпрактичніша модель, DeepSeek V3 є досягненням у деяких аспектах. DeepSeek змогла навчити модель, використовуючи центр обробки даних з графічними процесорами Nvidia H800 всього за два місяці – графічними процесорами, які нещодавно Міністерство торгівлі США заборонило китайським компаніям закуповувати. Компанія також стверджує, що витратила лише $5,5 млн на навчання DeepSeek V3, що становить лише частину вартості розробки таких моделей, як GPT-4 від OpenAI.
Недоліком є те, що політичні погляди моделі трохи… обмежені. Запитайте DeepSeek V3 про площу Тяньаньмень, наприклад, і він не відповість.
Оскільки DeepSeek є китайською компанією, китайський інтернет-регулятор проводить бенчмаркінг, щоб переконатися, що відповіді її моделей “втілюють основні соціалістичні цінності”. Багато китайських систем штучного інтелекту відмовляються відповідати на теми, які можуть викликати гнів регуляторів, наприклад, спекуляції про режим Сі Цзіньпіна.
Компанія DeepSeek, яка наприкінці листопада представила DeepSeek-R1, відповідь на модель “міркувань” OpenAI o1, є цікавою організацією. Її підтримує High-Flyer Capital Management, китайський кількісний хедж-фонд, який використовує штучний інтелект для прийняття торгових рішень.
High-Flyer будує власні серверні кластери для навчання моделей, один з останніх з яких, як повідомляється, має 10 000 графічних процесорів Nvidia A100 і коштує 1 мільярд ієн (~138 мільйонів доларів США). Заснована Лян Веньфенгом, випускником факультету комп’ютерних наук, компанія High-Flyer прагне досягти “суперінтелектуального” ШІ через свою організацію DeepSeek.
В інтерв’ю на початку цього року Веньфенг охарактеризував ШІ з закритим вихідним кодом, такий як OpenAI, як “тимчасовий” рів. “Це не завадило іншим наздогнати його”, – зазначив він.