Google представила экспериментальную модель искусственного интеллекта Gemini 2.5 Computer Use, которая может работать в веб-браузере почти так же, как пользователь – кликать, листать страницы, вводить текст и даже заполнять формы. Об этом сообщает Latvia Today.
Как работает новая модель Gemini 2.5
Gemini 2.5 Computer Use применяет визуальное понимание и логические рассуждения, чтобы анализировать запросы пользователя и выполнять конкретные действия в интерфейсе, разработанном для людей. Например, система способна самостоятельно заполнять форму или отправлять её.
Технология может быть использована для тестирования интерфейсов или работы с платформами, которые не имеют открытого API.
Подобные модели ранее применялись во внутренних проектах Google – в частности, в AI Mode и исследовательском проекте Project Mariner, где ИИ смог выполнять задачи в браузере, такие как добавление товаров в корзину по списку ингредиентов.
Google опубликовала демонстрационные видео, где модель выполняет различные действия в браузере. Все ролики ускорены в три раза. Компания уверяет, что её система превосходит конкурентов по результатам ряда тестов для веб- и мобильных интерфейсов.
Конкуренция с OpenAI и Anthropic
Анонс Google состоялся на следующий день после того, как OpenAI на своем Dev Day представила новые приложения для ChatGPT и продемонстрировала функцию ChatGPT Agent, которая способна выполнять сложные задачи вместо пользователя.
Конкурент Anthropic ещё в прошлом году представил версию своей модели Claude с подобной возможностью computer use.
Однако, в отличие от ChatGPT Agent или инструмента от Anthropic, модель Google имеет доступ только к браузеру, а не ко всей компьютерной среде. В настоящее время она поддерживает 13 типов действий, среди которых — открытие браузера, ввод текста, перетаскивание элементов и т. д.
Где протестировать Gemini 2.5
В Google отметили, что модель пока не оптимизирована для полного управления операционной системой компьютера.
Gemini 2.5 Computer Use доступна разработчикам через Google AI Studio и Vertex AI.
Кроме того, существует публичная демонстрация на платформе Browserbase, где пользователи могут наблюдать, как ИИ выполняет задачи типа “сыграть в 2048” или “просмотреть обсуждение на Hacker News”.