Новий ШІ від Google використовує браузер, як людина

0
533 views
Новий ШІ від Google використовує браузер, як людина

Google презентує нову модель штучного інтелекту Gemini, призначену для навігації та взаємодії з веб-сайтами через браузер, що дозволяє агентам штучного інтелекту виконувати дії в інтерфейсах, розроблених для використання людьми, а не роботами. Модель під назвою Gemini 2.5 Computer Use використовує «візуальне розуміння та здатність до міркування» для аналізу запиту користувача та виконання завдання, такого як заповнення та відправлення форми.

Вона може використовуватися для тестування інтерфейсу користувача або навігації по інтерфейсах, створених для людей, які не мають API або іншого прямого підключення. Інші версії цієї моделі використовувалися для агентських функцій в AI Mode і Project Mariner, дослідному прототипі, який використовує агенти штучного інтелекту для самостійного виконання завдань в браузері, таких як додавання товарів у кошик на основі списку інгредієнтів.

Оголошення Google з’явилося лише через день після того, як OpenAI представила нові додатки для ChatGPT в рамках щорічного Dev Day, і продовжує зосереджувати свою увагу на функції ChatGPT Agent, яка може виконувати складні завдання від вашого імені. Тим часом Anthropic вже випустила версію своєї моделі штучного інтелекту Claude з «використанням комп’ютера» минулого року.

Google опублікував кілька демонстраційних відеороликів, на яких показано роботу його інструменту для використання комп’ютера, і зазначає, що вони прискорені в 3 рази.

Google стверджує, що його модель використання комп’ютера «перевершує провідні альтернативи за багатьма веб- та мобільними показниками». На відміну від ChatGPT Agent та інструменту використання комп’ютера від Anthropic, нова модель штучного інтелекту від Google має доступ лише до браузера, а не до всього комп’ютерного середовища. Google зазначає, що вона «ще не оптимізована для управління на рівні операційної системи настільних комп’ютерів» і наразі підтримує 13 дій, включаючи відкриття веб-браузера, введення тексту, а також перетягування елементів.

Gemini 2.5 Computer Use доступний для розробників через Google AI Studio та Vertex AI, але також є демо-версія на Browserbase, де ви можете спостерігати, як він виконує завдання, такі як «Зіграти в гру 2048» або «Переглянути Hacker News для популярних дебатів».