Un grupo de investigadores de la Universidad Hebrea de Jerusalén, encabezados por Felix Kreuk, presentó AudioGen, una inteligencia artificial que utiliza un modelo generativo autorregresivo para generar un sonido a partir de una frase de texto.
El equipo utilizó 10 conjuntos de datos que contienen diferentes tipos de anotaciones de audio y texto. Para agilizar la inferencia, emplearon modelos de flujos múltiples, lo que permite el uso de secuencias más cortas manteniendo una tasa de bits y una calidad perceptiva similares.
Las pruebas realizadas con textos «silbar con sonido de viento fuerte», «un hombre habla mientras un pájaro canta y un perro ladra», o «sirenas de policía que pasan a tu lado» fueron exitosas, debido a que se logran escuchar exactamente lo que se buscaba. En su página web es posible escuchar múltiples ejemplos de este estilo, y así entender mejor como funciona esta herramienta.
AudioGen será una tecnología muy provechosa para la industria audiovisual, ya que se podrán generar sonidos con IA y no será necesario grabarlos o comprarlos.
Esta inteligencia artificial que convierte texto en sonidos aún está en desarrollo, por lo cual sus creadores todavía no ofrecen el código o el software para que otros usuarios lo pruebes
Lea también: Twitter impulsa a sus usuarios a compartir tweets y no hacer capturas de pantalla