AudioGen genera sonidos a partir de un texto

Foto: PixaBay

Un grupo de investigadores de la Universidad Hebrea de Jerusalén, encabezados por Felix Kreuk, presentó AudioGen, una inteligencia artificial que utiliza un modelo generativo autorregresivo para generar un sonido a partir de una frase de texto.

El equipo utilizó 10 conjuntos de datos que contienen diferentes tipos de anotaciones de audio y texto. Para agilizar la inferencia, emplearon modelos de flujos múltiples, lo que permite el uso de secuencias más cortas manteniendo una tasa de bits y una calidad perceptiva similares.

Las pruebas realizadas con textos «silbar con sonido de viento fuerte», «un hombre habla mientras un pájaro canta y un perro ladra», o «sirenas de policía que pasan a tu lado» fueron exitosas, debido a que se logran escuchar exactamente lo que se buscaba. En su página web es posible escuchar múltiples ejemplos de este estilo, y así entender mejor como funciona esta herramienta.

AudioGen será una tecnología muy provechosa para la industria audiovisual, ya que se podrán generar sonidos con IA y no será necesario grabarlos o comprarlos.

Esta inteligencia artificial que convierte texto en sonidos aún está en desarrollo, por lo cual sus creadores todavía no ofrecen el código o el software para que otros usuarios lo pruebes


Lea también: Twitter impulsa a sus usuarios a compartir tweets y no hacer capturas de pantalla