Google explica el funcionamiento de la inteligencia artificial tras su transcripción instantánea de audios

Google dedica buena parte de su tiempo de desarrollo de servicios al perfeccionamiento de la inteligencia artificial que emplea en bastantes de sus productos. El ejemplo más claro es el Asistente de Google que se incluye en Android, en los productos Nest y demás, pero hay más servicios que hacen uso de este machine learning y uno de ellos es su aplicación de grabadora.

No hace mucho, Google anunció una nueva funcionalidad y era el hecho de que se añadía la transcripción del audio en tiempo real. Obtener un texto sobre la marcha sobre aquello que se está grabando, incluso en otro idioma (hola, modo Intérprete). Además de esta transcripción, Google permite buscar dentro de un archivo de audio y ahora el equipo de Mountain View ha explicado un poco cómo funciona, sin entrar en aspectos muy técnicos.

Dividir, analizar, transcribir, etiquetar

Cuenta Google que, como era previsible, tras la traducción instantánea y la transcripción instantánea está su Asistente. Ok Google para todo. La potencia de procesado de los audios se encuentra, además, completamente offline. No hay subidas a la nube sino que todo se procesa en el propio dispositivo y allí es donde todo el audio se despieza y se categoriza. Pero más importante, se etiqueta con un código fácilmente identificable por el usuario.

En Xataka Android

Google explica cómo funciona el modo retrato con la cámara doble de los Pixel 4

El audio se divide por palabras y todas ellas se referencian a puntos concretos en el texto que se ha transcrito. De esta forma es muy fácil volver a cualquier punto de la grabación en concreto y realizar búsquedas. Todo ello basado, como hemos dicho, en la propia transcripción. Cada palabra conduce a un marco de tiempo exacto al que acudir a posteriori para empezar a escuchar desde ahí.

Pero además de esto, Google se dedica a separar los distintos tipos de audio que está grabando en ese momento, todo ello analizando bloques de 50 milisegundos que va tiñendo de uno y otro color. Así, la máquina de inteligencia artificial de Google sabe cuándo se está hablando, cuándo se está reproduciendo música y es también capaz de reconocer lo que está sonando. Todo ello mediante multitud de procesos separados que operan al mismo tiempo sobre el mismo archivo de audio.

Se analiza y etiqueta el audio en bloques de 50ms, formando así marcadores para audio y voz

Google consigue también reconocer distintos sonidos que se están recogiendo de forma simultánea y etiqueta los dominantes. Todo ello, recordemos, en tiempo real. Pero todo esto que Google nos cuenta tiene que ver con el proceso de la propia grabación, y deja algo para el final. Una vez que la grabación ha concluido, Google es capaz de sugerir títulos para guardar el audio en función de qué se ha estado haciendo.

Y en este proceso también entra la inteligencia artificial pues se analizan frecuencias de palabras y la importancia de éstas en el contexto. Así, se restan las palabras que se consideran "vacías" a nivel de importancia, como las palabras malsonantes, y se generan una serie de etiquetas principales.

Así es cómo funciona la inteligencia artificial, o los procedimientos de machine learning, que hay detrás de la transcripción en tiempo real de audios de la grabadora de Google. Interpretación y etiquetado de archivos de sonido en el momento de la grabación. Y claro está, al intervenir aquí la IA desarrollada por Google, será más y más eficiente con el paso del tiempo.

Más información | Google

Dividir, analizar, transcribir, etiquetar

RECIBE "Xatakaletter", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios