OpenAI запускає Operator, який може керувати комп’ютером

23.01.2025

833 views

Як повідомляється, OpenAI готується до запуску Operator на цьому тижні. Operator – це назва комп’ютерного агента, який може виконувати завдання у веб-браузері користувача від його імені. Інші компанії, зокрема Google та Anthropic, розробляють подібних “агентів”, сподіваючись, що вони стануть наступним великим стрибком на шляху до того, щоб ШІ виконав свою обіцянку – зміг виконувати завдання, які зараз виконує людина.

За даними видання The Information, яке першим повідомило про майбутній запуск, Operator надаватиме користувачам запропоновані підказки в таких категоріях, як подорожі, ресторани та події. Наприклад, користувачі можуть попросити оператора знайти хороший рейс з Нью-Йорка до Мауї, який не приземлиться надто пізно ввечері. Оператор не завершить транзакцію – користувач залишиться в циклі і завершить процес оформлення замовлення.

Легко уявити, яким чином Operator може бути корисним. Люди похилого віку, які не мають навичок роботи з комп’ютером, можуть попросити Оператора допомогти їм надіслати електронний лист і побачити, як він перейде до Gmail і відкриє для них вікно для написання тексту. Технічно підковані люди не потребують такої допомоги, але людям старшого покоління часто важко орієнтуватися в Інтернеті, і для них виконання навіть простих завдань є проблемою. Боти можуть допомогти і в інших сферах, наприклад, у тестуванні якості, коли компаніям потрібно перевірити, чи працюють їхні нові веб-сайти або послуги належним чином.

Так звані “агенти використання комп’ютерів” несуть у собі потенційні ризики. Ми вже бачили, як один стартап представив веб-навігаційного бота для автоматизації процесу розміщення маркетингового спаму на Reddit. Боти, які беруть під контроль клієнта-кінцевого користувача, здатні обходити обмеження API, призначені для блокування автоматизації. Стартапам, які займаються розробкою штучного інтелекту, доведеться вжити певних заходів для боротьби зі зловживаннями, інакше веб-сайти стануть ще більш заваленими спамом, ніж вони є сьогодні.

Такі агенти, як Operator, по суті, працюють, роблячи скріншоти браузера користувача і надсилаючи зображення назад в OpenAI для аналізу. Як тільки його моделі визначають наступний крок, необхідний для виконання завдання, браузеру надсилається команда перемістити і клацнути мишею на відповідну ціль або ввести текст у поле введення. Він використовує переваги мультимодальної технології OpenAI та інших розробників, які можуть інтерпретувати різні форми введення, в даному випадку текст і зображення.

Обіцянки нещодавньої хвилі стартапів у сфері ШІ полягають у тому, що вони зможуть створити штучний загальний інтелект (AGI), який зможе замінити людей у більшості завдань, які вони виконують сьогодні, і зробити життя кожного з нас більш ефективним. Оскільки експоненціальний приріст продуктивності мовних моделей сповільнився, ці компанії шукають нові шляхи, які допоможуть їм досягти цієї мети, і комп’ютерні агенти використання є одним з них. Штучний інтелект не може по-справжньому замінити людину, поки він не зможе фізично виконувати завдання за неї – написання тексту є лише частиною завдання. Боти також повинні вміти працювати з електронними таблицями, переглядати відео тощо.

Після того, як Anthropic випустила попередню версію свого комп’ютерного бота, перші тестери скаржилися, що він у кращому випадку недопрацьований, застряє в циклах, коли не знає, що робити, або забуває про завдання і починає робити щось зовсім інше, наприклад, розглядати фотографії природи на Google Images. Він також повільний і дорогий в експлуатації.

Тримати людину в курсі подій буде вкрай важливо з ботом, якому надано такий високий рівень контролю і доступ до критично важливих даних. Здається, що, можливо, комп’ютерні агенти будуть схожі на безпілотні автомобілі. Google змогла досить легко змусити автомобіль їхати по прямій дорозі самостійно, але на вирішення граничних сценаріїв пішли роки.

Ведуться дебати про те, як виміряти AGI і коли він буде “досягнутий”, але OpenAI заявив своєму найбільшому спонсору Microsoft, що вважає, що AGI буде досягнутий, коли він створить ШІ, який зможе генерувати щонайменше 100 мільярдів доларів прибутку. Це висока мета, враховуючи, що OpenAI прогнозує, що в 2025 році вона отримає 12 мільярдів доларів доходу, при цьому все ще втрачаючи мільярди.

Водночас ні Microsoft, ні Google не побачили корпоративних клієнтів, готових впроваджувати інструменти штучного інтелекту так швидко, як вони сподівалися. Замість того, щоб стягувати по $20-30 з працівника за додавання інструментів ШІ до своїх пакетів, обидві компанії тепер пхають ШІ у свої стандартні пакети і піднімають ціни на пару доларів відповідно.

OpenAI запускає Operator, який може керувати комп’ютером

Не пропустіть

EcoFlow RAPID Pro — продуктивний повербанк для темпу великого міста

MSI випустила плату B850M Gaming Pro Max з 64 МБ BIOS

Huawei в червні випустить серію nova 16 та MatePad Pro Max

Процесори Intel Titan Lake отримають пам’ять LPDDR6

Хакери атакують держоргани під виглядом Prometheus