У четвер OpenAI випустила GPT-5.4, нову базову модель, яка позиціонується як «наша найпотужніша та найефективніша модель для професійної роботи». Окрім стандартної версії, GPT-5.4 також доступна як модель міркування (GPT-5.4 Thinking) або оптимізована для високої продуктивності (GPT-5.4 Pro).
API-версія моделі буде доступна з контекстними вікнами розміром до 1 мільйона токенів, що є на сьогодні найбільшим контекстним вікном, доступним від OpenAI.
OpenAI також підкреслила покращену ефективність токенів, зазначивши, що GPT-5.4 здатна вирішувати ті самі проблеми, використовуючи значно менше токенів, ніж її попередниця.
Нова модель має значно покращені результати тестування, включаючи рекордні бали в тестах на використання комп’ютерів OSWorld-Verified та WebArena Verified. Нова модель також отримала рекордні 83% в тесті OpenAI GDPval для завдань, пов’язаних із знаннями.
GPT-5.4 також посіла перше місце в тесті Mercor APEX-Agents, призначеному для перевірки професійних навичок у галузі права та фінансів, згідно із заявою генерального директора Mercor Брендана Фуді.
«[GPT-5.4] чудово справляється із створенням довгострокових результатів, таких як презентації, фінансові моделі та юридичний аналіз», — зазначив Фуді в заяві, «проявляючи найвищу продуктивність, працюючи швидше та з меншими витратами, ніж конкурентні передові моделі».
Нова версія продовжує зусилля компанії щодо обмеження галюцинацій та фактичних помилок. OpenAI заявила, що модель на 33% рідше допускає помилки в окремих твердженнях у порівнянні з GPT 5.2, а загалом відповіді на 18% рідше містять помилки.
В рамках запуску OpenAI переробила спосіб управління викликом інструментів в API-версії GPT-5.4, запровадивши нову систему під назвою Tool Search. Раніше системні підказки виводили визначення всіх доступних інструментів під час виклику моделі — процес, який міг споживати багато токенів у міру зростання кількості доступних інструментів. Нова система дозволяє моделям шукати визначення інструментів за потреби, що прискорює та здешевлює запити в системах з великою кількістю доступних інструментів.
OpenAI також включила нову оцінку безпеки для тестування ланцюжка міркувань своїх моделей, тобто поточних коментарів, які надають моделі для демонстрації процесу мислення під час виконання багатоетапних завдань. Дослідники безпеки ШІ вже давно турбуються, що моделі міркувань можуть неправильно представляти свій ланцюжок міркувань, і тестування показує, що це може статися за відповідних обставин.
Нова оцінка OpenAI показує, що в версії GPT-5.4 Thinking ймовірність обману менша, «що свідчить про те, що модель не має можливості приховувати своє міркування і що моніторинг CoT залишається ефективним інструментом безпеки».










