Pasé de hablar con la IA a que actuase por mí: tras probar el modo agente de Gemini ahora lo quiero en mi Android

Hablar con la IA fue el primer paso, el siguiente es que la inteligencia artificial sea lo suficientemente autónoma como para realizar tareas por ella misma. Este modo agente es una de las novedades que Google ha introducido en Gemini 2.5: el Computer Use. Y lo bueno es que podemos probarlo sin más complicaciones que abrir un navegador.

Gemini en modo agente. La novedad introducida por Google se dirige a los desarrolladores: las posibilidades «agénticas» pasan por la API de Gemini 2.5 Computer Use. Con dicha API, un desarrollador puede hacer que su app incluya un piloto automático asistido directamente por la IA de Gemini. Esto abre la puerta a un abanico enorme de opciones y acerca a Gemini a su modo de agente inteligente.

Con el nuevo modo computadora, Gemini puede admitir una orden de texto, procesarla y devolver su razonamiento mientras hace uso del dispositivo para obtener el mejor resultado. Por ejemplo, es posible reservar un vuelo con Gemini dándole una instrucción, buscar una mesa desde el móvil para una fecha concreta o incluir el piloto automático en un navegador para que haga las tareas por nosotros.

Gemini en modo agente dentro del navegador de muestra

¿Qué quieres que haga por ti? Google ha presentado su nueva API acompañada de un navegador de muestra con el que podemos acceder al agente integrado en una app para la web. Funciona perfectamente en el móvil y admite cualquier tarea que se pueda hacer en un navegador de Internet, del mismo modo que ya hace Gemini en los teléfonos Android.

Puedes probar el navegador con Gemini en modo agente desde aquí. De momento está en inglés, aunque se le pueden dar órdenes en español

¿Que quieres buscar algo concreto en Amazon sin tener que saltar entre los distintos productos? He probado con distintos artículos y el navegador me ha encontrado justo lo que necesitaba. También valdría para simular el comportamiento en una página web, organizar un calendario, responder comentarios... Gemini hará lo que le pidamos con un límite temporal.

Cinco minutos. Este es el tiempo que Google ha habilitado en su agente Gemini para ordenadores. Durante esos cinco minutos el navegador funcionará en modo autónomo para cumplir la tarea. ¿Que hace falta más tiempo? Se quedará a medias. Para el resto de las peticiones debería cumplir. Este límite es similar al que Google impone en sus pruebas del modo agente.

En Xataka Android

ChatGPT ha aprendido a usar las apps de tu móvil antes que Gemini. Es un gran paso adelante para Android

El agente es algo lento en este modo de prueba, aunque efectivo. He encontrado que resuelve correctamente la orden y es hasta imaginativo: supo buscar alternativas cercanas a lo que le pedía, no solo el resultado estricto. Esta capacidad de valoración y de análisis hace aún más útil a un agente, un paso más allá del Gemini tradicional integrado en el móvil.

¿Y en Android, para cuándo? Google tiene un modelo de agente funcional y de gran potencia. Ha demostrado que está listo para pasar a producción y que podría venir ya integrado en aplicaciones como Google Chrome. O como el propio Android, el sistema echa de menos un Gemini mucho más capaz.

Que terminará en Android está claro, basta saber cuándo. Porque OpenAI se le está adelantando, Google debería volcar toda su experiencia en obtener un Gemini en Android con capacidades autónomas de gestión. Pedirle que active algo concreto del teléfono, y que sea capaz de hacerlo, es básico.

Imagen de portada | Iván Linares

En Xataka Android | Cómo saber que están grabando tu llamada, incluso aunque no usen el botón de grabación