<
>

Meta framework de fuentes abiertas para generar sonidos y música


Se acerca rápidamente el día en que la IA generativa no solo escribirá y creará imágenes en un estilo convincentemente humano, sino que también compondrá música y sonidos que pasan por el trabajo de un profesional.

Esta mañana Meta anunció audiocraft, un marco para generar lo que describe como audio y música de “alta calidad” y “realista” a partir de breves descripciones de texto o indicaciones. No es la primera incursión de Meta en la generación de audio: el gigante tecnológico abrió un generador de música alimentado por IA, MusicGen, en junio, pero Meta afirma que ha logrado avances que mejoran enormemente la calidad de los sonidos generados por IA, como perros ladrando, coches bocinazos y pasos en un piso de madera.

En una publicación de blog compartida con TechCrunch, Meta explica que el marco AudioCraft fue diseñado para simplificar el uso de modelos generativos para audio en comparación con trabajos anteriores en el campo (por ejemplo, Riffusion, Dance Diffusion y OpenAI’s Jukebox). AudioCraft, cuyo código está disponible en código abierto, proporciona una colección de generadores de sonido y música, además de algoritmos de compresión que se pueden usar para crear y codificar canciones y audio sin tener que cambiar entre diferentes bases de código.

audiocraft contiene tres modelos generativos de IA: MusicGen, AudioGen y EnCodec.

MusicGen no es nuevo. Pero Meta lanzó el código de entrenamiento para ello, lo que permite a los usuarios entrenar el modelo en su propio conjunto de datos de música.

Eso podría generar importantes problemas éticos y legales, considerando que MusicGen “aprende” de la música existente para producir efectos similares, un hecho con el que no todos los artistas o usuarios generativos de IA se sienten cómodos.

Cada vez más, pistas caseras que usan IA generativa para conjurar sonidos familiares que pueden hacerse pasar por auténticos, o al menos lo suficientemente cerca, se han vuelto virales. Los sellos discográficos se han apresurado a señalarlos a los socios de transmisión, citando preocupaciones de propiedad intelectual, y han generalmente sido victorioso. Pero todavía falta claridad sobre si la música “deepfake” viola los derechos de autor de artistas, sellos discográficos y otros titulares de derechos.

Meta deja en claro que la versión preentrenada y lista para usar de MusicGen fue entrenada con “música de propiedad de Meta y con licencia específica”, específicamente 20,000 horas de audio, 400,000 grabaciones junto con descripciones de texto y metadatos, de la propia compañía. Meta Music Initiative Sound Collection, la biblioteca de música de Shutterstock y Pond5, una gran biblioteca de archivos multimedia. Y Meta eliminó las voces de los datos de entrenamiento para evitar que el modelo replique las voces de los artistas. Pero mientras que MusicGen condiciones de uso desalentar el uso del modelo para casos de uso “fuera del alcance” más allá de la investigación, Meta no prohíbe expresamente ninguna aplicación comercial.

AudioGen, el otro modelo de generación de audio contenido en AudioCraft, se enfoca en generar sonidos ambientales y efectos de sonido en lugar de música y melodías.

AudioGen es un modelo basado en la difusión, como la mayoría de los generadores de imágenes modernos (ver DALL-E 2 de OpenAI, Imagen y Difusión estable de Google). En difusión, un modelo aprende a restar gradualmente el ruido de los datos iniciales hechos completamente de ruido, por ejemplo, audio o imágenes, acercándolos paso a paso al indicador de destino.

Dada una descripción de texto de una escena acústica, AudioGen puede generar sonidos ambientales con “condiciones de grabación realistas” y “contenido de escena complejo”. O eso dice Meta: no tuvimos la oportunidad de probar AudioGen o escuchar sus muestras antes del lanzamiento del modelo. Según un documento técnico publicado junto con AudioGen esta mañana, AudioGen también puede generar voz a partir de indicaciones además de música, lo que refleja la composición de sus diversos datos de entrenamiento.

En el documento técnico, Meta reconoce que AudioCraft podría usarse indebidamente para falsificar la voz de una persona. Y, dadas las capacidades de música generativa de AudioCraft, el modelo plantea las mismas cuestiones éticas que MusicGen. Pero, al igual que con MusicGen, Meta no está poniendo muchas restricciones en las formas en que se puede usar AudioCraft, y su código de entrenamiento, para bien o para mal.

El último de los tres modelos de AudioCraft, EnCodec, es una mejora sobre un modelo Meta anterior para generar música con menos artefactos. Meta afirma que modela secuencias de audio de manera más eficiente, capturando diferentes niveles de información en formas de onda de audio de datos de entrenamiento para ayudar a crear audio novedoso.

“EnCodec es un códec neuronal con pérdida que fue entrenado específicamente para comprimir cualquier tipo de audio y reconstruir la señal original con alta fidelidad”, explica Meta en la publicación del blog. “Los diferentes flujos capturan diferentes niveles de información de la forma de onda de audio, lo que nos permite reconstruir el audio con alta fidelidad de todos los flujos”.

Entonces, ¿qué se puede hacer con AudioCraft? Meta enfatiza las ventajas potenciales, como era de esperar, como proporcionar inspiración a los músicos y ayudar a las personas a repetir sus composiciones “de nuevas maneras”. Pero como nos ha demostrado la llegada de los generadores de imágenes y texto, existen inconvenientes, y probablemente demandas, que acechan en las sombras.

Al diablo con las consecuencias, Meta dice que planea seguir investigando una mejor capacidad de control y formas de mejorar el rendimiento de los modelos de audio generativos, así como formas de mitigar las limitaciones y los sesgos de dichos modelos. Sobre el tema de los sesgos, MusicGen, señala Meta, no funciona bien en descripciones en idiomas que no sean inglés y estilos musicales y culturas que no sean occidentales, debido a sesgos muy obvios en sus datos de entrenamiento.

“En lugar de mantener el trabajo como una caja negra impenetrable, ser abiertos sobre cómo desarrollamos estos modelos y garantizar que sean fáciles de usar para las personas, ya sean investigadores o la comunidad musical en general, ayuda a las personas a comprender lo que estos modelos pueden hacer, comprender lo que no pueden hacer y empoderarse para usarlos realmente”, escribe Meta en la publicación del blog. “A través del desarrollo de controles más avanzados, esperamos que estos modelos puedan resultar útiles tanto para los aficionados como para los profesionales de la música”.

Etiquetas
Siguiente

Deja tu comentario