Esta es la tecnología que hay detrás del asistente de Google Fotos

Google Fotos es una de esas aplicaciones que consiguen dejarnos con la boca abierta, por varios motivos. No solo hace una copia de seguridad en la nube de todas tus fotos, sino que te permite buscar tus fotos según su contenido e incluso se anima a crear versiones mejoradas de tus fotos y animaciones. Una pasada.

Hace una semana ya te mostramos 23 ejemplos de lo que el asistente de Google es capaz de hacer con tus fotos. Y lo mejor de todo es que no tienes que hacer absolutamente nada, salvo activar la copia de seguridad y esperar que Google haga su magia.

¿Pero cómo funciona esta magia? ¿Cómo consigue Google distinguir las fotos de tu gato de las del café con leche? ¿Cómo sabe cuándo debería poner un marco a la foto con un efecto artístico y cuándo un collage puede ser más interesante?

Patrones, patrones, patrones...

Google Fotos no sería la mitad de lo que es sin el apoyo de la tecnología de reconocimiento visual de Google, la misma que te permite realizar búsquedas complejas en tu galería de imágenes. No es una tecnología infalible, pero según pasa el tiempo y más personas lo usan se vuelve cada vez es más precisa.

Al otro lado de la nube, los servidores de Google no tienen ojos para apreciar las fotos de tus vacaciones en la playa, pero sí pueden reconocer algunos patrones y actuar en consecuencia. La tecnología recibe el obvio nombre de reconocimiento de patrones y es la base de otros muchos servicios que usamos a diario como el reconocimiento de voz o la previsión meteorológica.

El reconocimiento de patrones de Google usa redes neuronales para extraer distintas capas de información de cada fotografía. Las capas de bajo nivel extraen información básica como las características básicas de la fotografía o los bordes generales, mientras que las capas de alto nivel detectan rasgos más sofisticados e incluso objetos enteros.

Esquema de reconocimiento de patrones, de Wikipedia

Google sigue sin tener ni idea de qué se muestra en tu foto en la playa, pero es más que posible que su red neuronal sea capaz de distinguir satisfactoriamente algunos de los objetos y rasgos que la componen como que hay un cielo azul, mar, arena y varias personas.

Entrenando a la máquina

¿Pero de dónde sacan la información inicial estas redes neuronales para saber cómo reconocer determinados objetos? Lo cierto es que en esto no nos diferenciamos mucho de las máquinas: lo único que necesita es entrenamiento.

Si desarrolláramos un software de reconocimiento de imagen sin recurrir a redes neuronales, probablemente podríamos usar una serie de reglas para reconocer una moto. Es un vehículo con dos ruedas, un asiento, un manillar y un cuerpo más grueso que el de una bicicleta. Y probablemente el algoritmo funcionaría correctamente, siempre y cuando sea una foto perfecta de una moto.

Las redes neuronales permiten que el sistema "aprenda" qué es una moto. No solo las hay de dos ruedas, sino también de tres, con sidecar, de mil y una formas y colores y tamaños, con piloto encima, aparcadas, vistas de perfil, de frente, tapadas por otro coche... Sería imposible programar a mano todas las variables, pero por suerte la red neuronal puede aprender a reconocerlas.

En este aspecto Google lo tiene fácil, pues cientos de millones de personas usan sus servicios cada día, entrenando a la máquina intencionadamente o no. Por ejemplo, cada vez que buscas en las imágenes de Google un "perro con un gorro de cowboy" y abres una de las imágenes podrías estar dándole una pista de qué es justamente eso. De igual modo, la red neuronal tiene todo el contenido de la red para nutrirse indefinidamente de conocimiento.

Otras formas de entrenar el sistema son bastante más directas. Desde el propio Google Fotos puedes eliminar resultados que no se corresponden con la búsqueda seleccionandolos y eligiendo Quitar de los resultados, aunque esta opción solo aparece por ahora en las búsquedas sugeridas automáticamente desde el apartado "Cosas".

Espera un momento... esto no es un perro

En junio de 2015 los ingenieros de Google nos sorprendieron mostrando visualmente cómo sus redes neuronales ven el mundo. Realizando ajustes en el código, la red neuronal no solo es capaz de detectar patrones, sino también de generar imágenes a partir de los patrones que ya ha aprendido.

Además de servir para crear imágenes de lo más escalofriantes (e incluso videos musicales), esta tecnología tiene la aplicación de verificar que el sistema está aprendiendo correctamente los conceptos.

Un ejemplo usado por Google es una pesa. Forzando a la red neuronal a expresar su concepto de una pesa detectaron que la inteligencia artificial consideraba que siempre debía ir acompañada de un brazo musculoso sujetándola. La gran mayoría de las imágenes de pesas que el sistema había recogido en su entrenamiento incluian el brazo, lo cual se traducía en un entrenamiento erróneo.

En resumen, la tecnología de reconocimiento de imágen de Google permite que Google Fotos tenga una idea aproximada de qué está pasando en cada instantánea. Es una información vital para que el asistente de fotos genere esas imágenes automáticas que tanto nos sorprenden, pero que no sería suficiente por si misma para muchos casos. Y ahí es donde entran los metadatos.

Los metadatos, el ingrediente que falta

Seguramente ya estés al tanto de la cantidad de información presente en cada imagen que tomas con la cámara de tu móvil. Lo más evidente es la fecha y la hora, pero con frecuencia Google también se puede hacer una idea aproximada pero fiable de la ubicación de cada foto.

Los metadatos le dan contexto a la información obtenida mediante la tecnologia de reconocimiento de imagen. Una foto en la playa que forma parte de una ráfaga rápida de fotos quedará genial como un GIF animado, mientras que varias fotos tomadas en un intervalo de tiempo corto quizá quedan mejor en un collage.

Las creaciones de Google Fotos que más se basan en los metadatos son los collages (fotos de personas tomadas en un mismo día) y las animaciones (generadas desde fotos similares tomadas en un corto intervalo de tiempo). Sin embargo, otras menos evidentes como las imágenes panorámicas también lo toman en cuenta. Por ejemplo, el efecto de imágen panorámica se consigue juntando varias fotos de un mismo lugar, pero solo si las has tomado también a la misma vez.

Por último, un poco de suerte

Para evitar que las creaciones sean demasiado repetitivas, a veces Google Fotos simplemente se la juega. ¿Una foto de un edificio o monumento? Probemos con efecto de blanco y negro. ¿Una foto de de un paisaje al aire libre? A ver qué te parece con un filtro retro y un marco...

Estos filtros son algo más "a ver si suena la campana" y sin duda forman también parte del entrenamiento de la red neuronal artificial. Cuantos más usuarios guarden la combinación de tipo de foto y efecto, más satisfactorio se marcará en la red, mientras que si a nadie le gusta ver fotos de su gato en blanco y negro entonces probablemente no es una buena combinación.

Uno de los mejores usos de tus datos

Está claro que a los gigantes de la Red les gusta, y mucho, tener tus datos personales. Cuantos más, mejor. Les permite crear un perfil más preciso de ti con el cual ofrecerte mejores servicios y, sí, también publicidad mejor segmentada que tenga un mejor rendimiento.

Sin embargo, es en servicios como Google Now y Google Fotos cuando por fin los usuarios obtenemos algo a cambio de ser salvajemente analizados por el Big Data de Google, en esta ocasión en forma de bonitas composiciones y efectos en nuestras fotos. Si vas a seguir creándome un perfil de todo lo que hago en la red, al menos que sea para ofrecerme cosas como esta.

En Xataka Android | 23 ejemplos de lo que puedes conseguir con el asistente de Google Fotos