OpenAI оголосила сьогодні, що працює над створенням фреймворку, який буде навчати моделі штучного інтелекту визнавати, коли вони вчинили небажану дію, підхід, який команда називає «зізнанням». Оскільки великі мовні моделі часто навчаються давати відповіді, які здаються бажаними, вони можуть все частіше висловлювати улесливість або галюцинації з повною впевненістю. Нова модель навчання намагається заохотити модель до вторинної відповіді про те, що вона зробила, щоб дійти до основної відповіді, яку вона надає. Зізнання оцінюються лише за чесністю, на відміну від багатьох факторів, які використовуються для оцінки основних відповідей, таких як корисність, точність і відповідність.
Дослідники заявили, що їхня мета — заохотити модель бути відвертою щодо своїх дій, включаючи потенційно проблемні дії, такі як хакерство, саботаж або невиконання інструкцій. «Якщо модель чесно зізнається у хакерстві тесту, саботуванні або порушенні інструкцій, таке зізнання збільшує її винагороду, а не зменшує її», — заявила компанія. Незалежно від того, чи є ви прихильником католицизму, Ашера або просто більш прозорого ШІ, така система, як зізнання, може бути корисним доповненням до навчання LLM.










