OpenAI вчить моделі бути відвертими щодо своїх дій

06.12.2025

838 views

OpenAI оголосила сьогодні, що працює над створенням фреймворку, який буде навчати моделі штучного інтелекту визнавати, коли вони вчинили небажану дію, підхід, який команда називає «зізнанням». Оскільки великі мовні моделі часто навчаються давати відповіді, які здаються бажаними, вони можуть все частіше висловлювати улесливість або галюцинації з повною впевненістю. Нова модель навчання намагається заохотити модель до вторинної відповіді про те, що вона зробила, щоб дійти до основної відповіді, яку вона надає. Зізнання оцінюються лише за чесністю, на відміну від багатьох факторів, які використовуються для оцінки основних відповідей, таких як корисність, точність і відповідність.

Дослідники заявили, що їхня мета — заохотити модель бути відвертою щодо своїх дій, включаючи потенційно проблемні дії, такі як хакерство, саботаж або невиконання інструкцій. «Якщо модель чесно зізнається у хакерстві тесту, саботуванні або порушенні інструкцій, таке зізнання збільшує її винагороду, а не зменшує її», — заявила компанія. Незалежно від того, чи є ви прихильником католицизму, Ашера або просто більш прозорого ШІ, така система, як зізнання, може бути корисним доповненням до навчання LLM.

OpenAI вчить моделі бути відвертими щодо своїх дій

Не пропустіть

MSI анонсувала ПК PRO MAX 80 та 34″ QD-OLED монітор

Дворежимний монітор LG 27GM950B: 5K 180Hz та 2K 330Hz Mini LED

Sony видала золотий геймпад DualSense у стилі 007

Логістичний локдаун: 5 млрд грн на дрони Mid Strike

Укртелеком розширив мережу GPON у західних областях