Google utiliza inteligencia emocional para completar las voces de los usuarios, durante fallos de videollamadas.
Las videollamadas están en su mejor momento por la cuarentena que está viviendo el mundo debido al coronavirus. Con ellas logramos conectar con familiares y amigos, además de sustituir reuniones de trabajo. El aumento en el uso de las plataformas de videoconferencias ha demostrado las ventajas y desventajas de cada una de ellas.
Google anunció que, con ayuda de la inteligencia artificial, mejorará la calidad de los audios en las videollamadas realizadas desde su aplicación Duo. El sistema llamado WaveNetEQ se basa en la tecnología WaveRNN de DeepMind, utilizando un conjunto de datos de voz. De esta manera funciona como el autocompletado de texto, pero con la voz cada vez que existe un fallo en la transmisión.
La nueva tecnología consiste en un modelo de red neuronal recurrente para la síntesis de voz, y consta de dos redes: una red autorregresiva y una red de acondicionamiento. La red autorregresiva se encarga de la estabilidad de la señal para darle continuidad a la voz a corto plazo. Mientras que la red de acondicionamiento apoya la red autorregresiva para lograr tener un audio consistente.
Adicionalmente esta tecnología cuenta con un sistema de conversión de texto a voz, el cual recibe la información de lo que se debe decir. La red de acondicionamiento recibe estos datos y forma los fonemas con características propias del usuario, como su entonación, luego dirige la red autorregresiva para que estos fonemas coincidan con la conversación.
La inteligencia artificial es capaz de generar la voz para agregarla en el momento que se produzca el fallo, sin embargo, actualmente solo produce silabas.
Los fallos de audio en las videollamadas hacen que la voz se vuelva robótica y repetitiva
Google explica que estos fallos en la transmisión se dan porque para transmitir una llamada a través de internet hay que fragmentar los datos y algunas ocasiones llegan a destiempo o incluso pueden perderse.
En la mayoría de los casos las plataformas de videollamadas son capaces de generar una continuación suave, aunque solo funciona con pequeñas perdidas de 20 milisegundos o menos. En las ocasiones en el que la perdida es de más de 60 milisegundos se producen huecos y el discurso se vuelve robótico.
Con información de Silicon.es
Lea también: FIFA: La tecnología es necesaria en la educación