Tecnología e Innovación

Google autocompleta la voz de sus usuarios en videollamadas

Por

13 abril, 2020

Google utiliza inteligencia emocional para completar las voces de los usuarios, durante fallos de videollamadas.

Las videollamadas están en su mejor momento por la cuarentena que está viviendo el mundo debido al coronavirus. Con ellas logramos conectar con familiares y amigos, además de sustituir reuniones de trabajo. El aumento en el uso de las plataformas de videoconferencias ha demostrado las ventajas y desventajas de cada una de ellas.

Google anunció que, con ayuda de la inteligencia artificial, mejorará la calidad de los audios en las videollamadas realizadas desde su aplicación Duo. El sistema llamado WaveNetEQ se basa en la tecnología WaveRNN de DeepMind, utilizando un conjunto de datos de voz. De esta manera funciona como el autocompletado de texto, pero con la voz cada vez que existe un fallo en la transmisión.

La nueva tecnología consiste en un modelo de red neuronal recurrente para la síntesis de voz, y consta de dos redes: una red autorregresiva y una red de acondicionamiento. La red autorregresiva se encarga de la estabilidad de la señal para darle continuidad a la voz a corto plazo. Mientras que la red de acondicionamiento apoya la red autorregresiva para lograr tener un audio consistente.

Adicionalmente esta tecnología cuenta con un sistema de conversión de texto a voz, el cual recibe la información de lo que se debe decir. La red de acondicionamiento recibe estos datos y forma los fonemas con características propias del usuario, como su entonación, luego dirige la red autorregresiva para que estos fonemas coincidan con la conversación.

La inteligencia artificial es capaz de generar la voz para agregarla en el momento que se produzca el fallo, sin embargo, actualmente solo produce silabas.

Los fallos de audio en las videollamadas hacen que la voz se vuelva robótica y repetitiva

Google explica que estos fallos en la transmisión se dan porque para transmitir una llamada a través de internet hay que fragmentar los datos y algunas ocasiones llegan a destiempo o incluso pueden perderse.

En la mayoría de los casos las plataformas de videollamadas son capaces de generar una continuación suave, aunque solo funciona con pequeñas perdidas de 20 milisegundos o menos. En las ocasiones en el que la perdida es de más de 60 milisegundos se producen huecos y el discurso se vuelve robótico.

Con información de Silicon.es

Lea también: FIFA: La tecnología es necesaria en la educación

Celebración de 50 Años de la Escuela de Ingeniería del Petróleo…

Explorando la historia Petrolera Venezolana: El duelo entre Raúl León y…

Universidad Católica Andrés Bello lanza concurso global de ensayos sobre Bitcoin

Solo el 10% de la población tiene acceso a créditos bancarios

Continúan los robos y asesinatos por negociaciones de vehículos a través…

Uno de los delitos que mayor crecimiento ha tenido durante la…

Auge de la criminalidad en espacios públicos como el Parque del…

La inseguridad vuelve en el Metro de Caracas

Estado Bolívar se prepara para la temporada de vacaciones

Cámara de Turismo de Barinas invita a descubrir las riquezas culturales…

Estado de Mérida en proceso de recuperación tras desastres naturales

Valle de los Mocotíes y Bailadores en Mérida se preparan para…

Google autocompleta la voz de sus usuarios en videollamadas

Los fallos de audio en las videollamadas hacen que la voz se vuelva robótica y repetitiva