AudioCraft es la nueva IA de Meta que genera música y efectos de sonido a partir de texto

Los músicos ahora también se tienen que preocupar por la Inteligencia Artificial. Meta lanzó una nueva herramienta que puede generar composiciones musicales sin tocar un solo instrumento.

Meta sigue metiendo el acelerador a fondo en el desarrollo de la Inteligencia Artificial (IA) Generativa. Luego del lanzamiento de Llama 2, la compañía tecnológica ha presentado sus avances en la generación de audio con la llegada de su nueva herramienta de IA bautizada como AudioCraft.

Se trata de un software de código abierto que permite generar fácilmente música y efectos de sonido realistas y de alta calidad a partir de texto, de la misma forma en que funcionan otras plataformas para generar imágenes como Dall-E 2 o ChatGPT para la información escrita.

“Imagina a un músico profesional que pueda explorar nuevas composiciones sin tener que tocar una sola nota en un instrumento. O el propietario de una pequeña empresa que agrega fácilmente una banda sonora a su último anuncio de video en Instagram. Esa es la promesa de AudioCraft”, explica Meta en un comunicado.

La nueva IA de Meta se compone de tres modelos generativos de audio: MusicGen, AudioGen y EnCodec.

4KAPVf3CXp4A xrL9GSNW H7o NNtyj1UzT8dXqyoMBpITnX 42t4raJBDA4haeMxbipojYBPIeTOPm00I4XkftOzi3td3acKtHSTwvMWkOZ82UZoq qbHWLi7zDwm5vtOuPDWpZ91wWj3as3 pyQ9Y

Por un lado, MusicGen, se entrenó con música propiedad de Meta y con licencia específica. Mientras que AudioGen se entrenó con efectos de sonido públicos y la compañía lanzará versiones pre entrenadas para facilitar la generación de sonidos ambientales y efectos de sonido como el ladrido de un perro, bocinas de autos o pasos en un piso de madera.

En cuanto a EnCodec, es el decodificador que permite generar música de mayor calidad con menos artefactos.

Al igual que con Llama 2, Meta decidió abrir el acceso a esta tecnología para investigadores y expertos que puedan usarla para entrenar sus propios modelos con sus propios datos y ayudar a avanzar en el campo del audio y la música generados por IA.

De acuerdo con Meta, a diferencia del entusiasmo con las imágenes, video y texto, los modelos de IA Generativa para audio aún están rezagados, porque son un poco más complicados, en especial replicar la música, porque “se compone de patrones complejos,  patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical con múltiples instrumentos”, explica la compañía.

El problema con la Inteligencia Artificial Generativa de audio es que su avance también ha generado una gran controversia y preocupación por los riesgos que representa. Por ejemplo, algunos actores maliciosos han estado replicando voces humanas para realizar extorsiones telefónicas.

Pero en el caso específico de la música, también ha generado el descontento tanto de cantantes como de la industria musical por el tema del material protegido con copyright. Por ejemplo, Universal Music ha comenzado a solicitar a las plataformas de música que bloqueen los servicios que entrenan modelos de IA con las letras de las canciones de artistas famosos.