Batalla de IAs. He comparado GPT-4o con Gemini 1.5 Pro y tengo claro que la pelea está más igualada que nunca

Que la presentación de Google durante el I/O iba a versar sobre la IA estaba más que claro, llevaba varias semanas anticipándose. De hecho, se sabía en tal medida las novedades, que OpenAI torpedeó la keynote de Sundar Pichai (y no fue la primera vez): el nuevo modelo GPT-4o llegaba antes que Gemini 1.5 Pro, la nueva versión de Google. Y tras estar varios días jugando con ambas me toca la dura tarea de enfrentarlas. Porque, ¿cuál es mejor?

Tanto Google como OpenAI han mejorado la velocidad y ejecución de sus modelos para reducir en lo posible la latencia de respuesta. Amplían el contexto para que puedan manejar una mayor cantidad de información y ambos se integran en los productos premium de la empresa; por más que los usuarios gratuitos de ChatGPT puedan acceder a GPT-4o de manera limitada. A efectos prácticos son muy similares, también sus resultados. Cuando les busqué las cosquillas ambas desvelaron tanto sus virtudes como sus carencias.

Gemini 1.5 Pro se moja menos que GPT-4o

Imagen del Google I/O

Antes de empezar con los resultados expondré la mesa de pruebas. Elegí una serie de órdenes para experimentar en todos los terrenos donde un chatbot puede ayudar: texto, imágenes, problemas matemáticos, traducción, código y más. Usé Gemini 1.5 Pro con la suscripción IA de Google One y GPT-4o con ChatGPT Plus. Usuario de pago en ambos, por lo que no deberían ver mermadas las capacidades.

En Xataka Android

Ya he probado Android 15 beta 2: esto es lo que más me ha gustado de la nueva actualización

En el caso de ChatGPT, usé la aplicación Android y también la versión web del navegador de escritorio. Para Gemini alterné tanto la versión web de Android como el navegador de escritorio, aunque también tengo integrado el chatbot en mi Google Pixel 8 Pro, sustituyendo a Google Assistant. Dado que el procesamiento es en la nube, y que ambas plataformas mantienen en línea las conversaciones, resulta indiferente dónde se les haga las consultas: los resultados serán iguales.

Las dos IAs abiertas en el teléfono, ambas preparadas, expectantes ante la lista de órdenes que voy a mandarles. Empezaré por algo sencillo: ¿quién soy?

Gemini prefiere no mojarse, y eso que tiene acceso a Internet con el mayor buscador del mundo. ChatGPT se tira a la piscina confundiendo varios Iván Linares: primera noticia de que soy director de cine.

Algo más difícil y sin salir de las funciones de buscador y verificador de fuentes, algo habitual para quien utiliza un chatbot con IA. ¿Por qué la Tierra es plana y no redonda?

Ninguno de los dos cae y ambos lo niegan con argumentos científicos refutados. Voy a ver si puedo confundirlos.

Gemini da por zanjada la cuestión con una respuesta bastante seca, ChatGPT anda más dubitativo. Cómo le gusta regalarse y perderse entre la argumentación.

Turno de preguntas delicadas: ¿tortilla de patatas con cebolla o sin ella?

Gemini 1.5 Pro tiende a no posicionarse y a ofrecer respuestas políticamente correctas desde los distintos bandos. A GPT-4o le gusta demostrar lo mucho que ha entrenado. Y suelta la mayor cantidad de datos posible cuando tiene la ocasión (se puede evitar personalizando el comportamiento, pero preferí dejar a ambas IAs por defecto). Sí es menos concreto que Gemini 1.5 Pro, noto un enorme progreso por parte de Google con respecto a versiones anteriores.

Llegados a este punto, les pedí que me crearan una imagen con una tortilla de patatas que no creara controversia. Aquí hice un pequeño truco, porque Gemini Advanced aún no crea imágenes en español: se lo pedí en inglés con VPN conectado a Estados Unidos. En cuanto a resultados... Creo que es fácil proclamar un vencedor.

A saber qué es lo verde por encima que le pone Gemini. Y ChatGPT hace un bizcocho relleno más que una tortilla

Resolviendo problemas más complejos

Hasta ahora las he puesto contra las cuerdas con búsquedas, valoraciones objetivas e imágenes. Veo a Gemini mejor posicionada, ChatGPT le da más a los datos que a la concreción. Turno de cuestiones más complejas.

Empiezo con una pregunta aparentemente sencilla que ya hice en un enfrentamiento anterior: «Multiplica el número de modelos de iPhone que Apple lanzó en 2022 por los años que cumplirá Stephen King en 2024».

Ninguno de los dos acierta: en 2022 Apple lanzó cuatro iPhone 14 y un iPhone SE. El resto del razonamiento es correcto: recuerdo que Google Bard, el chatbot anterior a Gemini, se hizo un buen lío en su momento.

Vayamos con un problema aparentemente matemático que necesita cierta dosis de razonamiento lógico para resolverse: «Si no tengo batería en el móvil, y me envían un mensaje cada media hora, ¿cuántos SMS habré leído a las doce de la noche?».

No tengo más preguntas, señoría: Gemini 1.5 Pro gana la batalla de forma aplastante.

Ahora le pediré algo de código, un Bookmarklet creado con Javascript para el navegador web. La idea es que, al pulsar sobre dicho Bookmarklet, el navegador me separe las imágenes del texto con un botón donde pueda descargarlas. La orden quedó así:

Imagina que necesito descargar las imágenes de cualquier página web. Quiero que me hagas un Bookmarklet que parsee el código de la web para abrir una página (en popup o como pestaña nueva) donde se vean todas las imágenes en JPG, PNG o WEBP; el resto de los formatos puedes obviarlos. Cada una de las fotos debe tener un botón de descargar para así poder bajarme la que yo quiera. Y si el Bookmarklet logra convertir el formato de imagen a JPG lo bordas.

Me ha sorprendido el excelente resultado de ambos: a la primera hicieron un Bookmarklet completamente válido, operativo y con una ejecución exacta a la que yo le pedí. Me tocaría pulir el código para que cargasen las imágenes a máxima resolución, ya que separan las miniaturas, pero no tengo queja para el primer intento. Mención especial merece Gemini, porque fue mucho más rápido dándome el resultado.

Resultados de aplicar el Bookmarklet en un navegador de escritorio. Izquierda, Gemini: derecha, ChatGPT

Veredicto: se nota la mejora que Google ha aplicado a Gemini 1.5 Pro

Llevo con Gemini (antes Google Bard) y con ChatGPT desde sus inicios, he ido usando los distintos modelos que fueron introduciendo y todas las actualizaciones, por lo que mi devenir por ambos se sustenta en la experiencia. Y la sensación que tengo es que OpenAI ha mejorado mucho la rapidez con GPT-4o sin optimizar el razonamiento de las respuestas ni su interpretación subjetiva; todo lo contrario de Google, que con la revisión recién introducida en Gemini 1.5 Pro se nota lo mucho que ha pulido cada aspecto de la interpretación y respuesta.

Los dos son muy rápidos, eficientes, son eficaces para la mayoría de tarea y, no lo olvidemos, son susceptibles de cometer errores: no hay que dejarse llevar nunca por lo que digan. Esto hay que grabárselo en piedra.

Imagen 2 en Gemini (izquierda) y DALL-E 3 en ChatGPT (derecha)

Para rematar, les pasé el texto de este artículo en PDF para así comprobar el análisis de documentos (ninguno de los dos tuvo el menor problema). Les pedí una «imagen épica y de estilo ilustración que pueda servir como portada para el post». De las obtenidas, he elegido ganadora. Como curiosidad, para que Gemini la hiciera tuve que traducir el artículo, conectarme al VPN estadounidense y pedirle la imagen en inglés.

Imagen de portada | Gemini

En Xataka Android | Google repite el mismo error de siempre con el despliegue de Gemini: un lío de nombres, apps y servicios duplicados y ahora dos asistentes