Detalles del contenido

En un mundo en el que la tecnología y el conocimiento están entrelazados, cada lectura es como una aventura asombrosa que te da una sensación de sabiduría e inspira una creatividad sin fin.

SongGeneration: la herramienta de código abierto que inaugura una nueva era de creación musical con IA

Un nuevo hito en la creación musical con IA

Con el rápido desarrollo de la tecnología de inteligencia artificial, el campo de la creación musical está experimentando un cambio sin precedentes. Recientemente, Tencent AI Lab lanzó un modelo de generación de música de código abierto llamado SongGeneration, una innovación que proporciona un fuerte apoyo técnico a la visión de "todo el mundo puede crear música".

La creación musical tradicional suele requerir conocimientos musicales profesionales y equipos caros, y la aparición de SongGeneration rompe por completo estos umbrales. El modelo no solo es capaz de generar composiciones musicales de alta calidad, sino que, lo que es más importante, está abierto a toda la sociedad en forma de código abierto, para que cualquier usuario de a pie pueda experimentar el encanto de la creación musical asistida por IA.

En un contexto en el que la tecnología de generación de música se enfrenta a retos comunes como la baja calidad del sonido, la falta de musicalidad y la lentitud de la generación, SongGeneration ha resuelto con éxito estos problemas clave gracias a su innovadora arquitectura técnica y su metodología de formación, estableciendo un nuevo punto de referencia en el campo de la inteligencia artificial musical.

Dirección de experiencia del modelo SongGeneration:https://huggingface.co/spaces/tencent/SongGeneration

Potentes funciones que ponen la creación musical al alcance de tu mano

SongGeneration está equipado con cuatro funciones básicas, cada una de las cuales demuestra su destreza tecnológica en el campo de la generación de música:

Control inteligente de textos

Los usuarios sólo tienen que introducir una sencilla combinación de palabras clave para generar una pieza musical completa que coincida con el estilo y el estado de ánimo deseados. Por ejemplo, cuando el usuario introduce "pop alegre", el sistema creará automáticamente una canción pop con un ambiente feliz; cuando introduce "rock intenso", generará una pieza de rock con un ritmo fuerte. Esta interacción intuitiva hace que la creación musical sea más fácil que nunca.

Estilo de precisión siguiente

Esta función permite a los usuarios cargar un clip de audio de referencia de 10 segundos o más, que SongGeneration analiza en profundidad y genera una nueva pieza musical con un alto grado de coherencia. Ya sea pop, rock, chino o cualquiera de los diversos estilos "sagrados", el modelo puede captar y reproducir con precisión su esencia, garantizando al mismo tiempo que la música recién generada tenga una buena musicalidad.

Tecnología de generación multiórbita

SongGeneration genera automáticamente pistas vocales y de acompañamiento separadas, una característica de gran importancia para la producción musical. El sistema garantiza un alto grado de coincidencia melódica, estructural, rítmica y orquestal, lo que facilita enormemente la edición y mezcla musical posterior a la producción.

Clonación de tonos

El seguimiento de tonos basado en referencias permite a SongGeneration generar interpretaciones vocales que son "clones de tonos". Las canciones resultantes no solo suenan muy parecidas al audio de referencia, sino que también mantienen un sonido natural y una calidad sonora excepcional, además de ser emocionalmente expresivas.

Arquitectura tecnológica revolucionaria y avances innovadores

La arquitectura técnica de SongGeneration consta de dos componentes básicos, el canal de procesamiento de datos y el modelo generativo, y consigue un rendimiento superior gracias a una serie de tecnologías innovadoras.

Proceso de datos

El modelo construye un sistema completo de procesamiento de datos musicales que integra varios módulos clave, como la separación audio-acompañamiento, el análisis de estructuras y el reconocimiento de letras. De este modo, el sistema es capaz de extraer con precisión la información de la letra a partir del audio sin procesar y, al mismo tiempo, obtener datos etiquetados importantes como la estructura de la música, el tipo de género, el nivel de calidad del sonido, etc., lo que proporciona una base de datos de alta calidad para el posterior entrenamiento del modelo.

Códecs de velocidad de bits ultrabaja

SongGeneration ha logrado un gran avance en el campo de los códecs musicales al desarrollar el códec musical de alta calidad de 48 kHz y doble canal con la tasa de bits más baja del sector para el modelado de código abierto. El códec consigue los mejores resultados de reconstrucción musical disponibles en la actualidad a una velocidad de bits muy baja, de sólo 25 Hz y 0,35 kbps, lo que reduce considerablemente la carga de modelado de los modelos lingüísticos.

El sistema está diseñado con dos modos de codificación, Híbrido y Dual: los modos Híbrido unifican el modelado de voces y coros para garantizar su coherencia armónica, mientras que los modos Dual se modelan de forma independiente para ofrecer una imagen más clara de los detalles.

Predicción paralela de tokens multiclase

El modelo es pionero en una estrategia de predicción paralela de "mezcla primero, doble pista después" para múltiples categorías de tokens. En primer lugar, el modelo lingüístico predice los tokens híbridos para orientar la disposición general de la información estructural de alto nivel, como la melodía y el ritmo, y después el descodificador autorregresivo ampliado modela los tokens de dos pistas para captar las variaciones finas de las voces y los coros. Este diseño consigue una predicción paralela sin aumentar significativamente la longitud de la secuencia y evita la interferencia mutua entre los tokens.

Alineación multidimensional de las preferencias humanas

SongGeneration es el primer gran modelo de generación musical de la industria que alinea las preferencias humanas multidimensionales, centrándose en tres dimensiones: preferencia por la musicalidad, preferencia por la alineación de las letras y preferencia por la coherencia de las pistas:

Tipo de preferenciaMétodos de construcciónefecto
preferencia musicalEntrenamiento de modelos de recompensa con una pequeña cantidad de datos de puntuación etiquetados manualmenteMejorar el arte y la experiencia auditiva de generar música
Preferencias de alineación de letrasCálculo del número de errores de fonemas utilizando un modelo ASR preentrenadoAsegurarse de que la letra coincide con lo que se está cantando.
Preferencias de coherencia de las señalesCálculo de la similitud texto-audio mediante MuQ-MuLanMejora de la conformidad del modelo con las instrucciones de uso

Paradigma de formación en tres etapas

El modelo adopta una innovadora estrategia de entrenamiento en tres fases: la fase de preentrenamiento se centra en la alineación modal de distintas entradas condicionales con representaciones musicales; la fase de entrenamiento de extensión modular entrena módulos de extensión para lograr un modelado paralelo de tokens de dos pistas; y la fase de entrenamiento de alineación multipreferencia integra las preferencias humanas para optimizar el modelo con vistas a generar música que se ajuste a las preferencias humanas.

Reconocimiento autorizado de la excelencia en el rendimiento

Para evaluar exhaustivamente el rendimiento de SongGeneration, Tencent AI Lab, junto con la Escuela de Música y Artes de Grabación de la Universidad de Comunicación de China, estableció un sistema de evaluación integral que incluye análisis objetivos y percepción subjetiva.

Resultados objetivos de la evaluación

En una revisión objetiva de la herramienta, SongGeneration se comparó exhaustivamente con varios modelos comerciales (Suno v4.5, Sponge Music, Mureka O1) y de código abierto (YuE, DiffRhythm, ACE-Step, SongGen):

Dimensión de evaluaciónRendimiento de SongGenerationClasificación
Calidad de la producción (CP)talentoser el número uno (el mejor o el peor)
Valoración de contenidos (CE)talentoser el número uno (el mejor o el peor)
Content Utility (CU)talentoser el número uno (el mejor o el peor)
Complejidad de la producción (CP)favorableplomo

Resultados de la evaluación subjetiva

SongGeneration sobresalió en varias dimensiones clave en las revisiones manuales subjetivas:

  • Precisión de las letras: Supera a muchos modelos de gran tamaño, incluido Suno, demostrando una excelente alineación voz-texto.
  • interpretación melódicaExcelente en términos de musicalidad, expresión emocional y sentido de la línea musical.
  • calidad del acompañamientoorquestación rica y variada y gran integración con el tema principal
  • rendimiento generalComparable a la última versión v4.5 de Suno, hasta el nivel de modelo comercial.

Los resultados de las pruebas demuestran que SongGeneration ocupa firmemente el primer puesto entre los modelos de código abierto y también el primero en la comparación de modelos comerciales, lo que demuestra plenamente su solidez técnica y su valor de aplicación.

La ecología abierta ayuda a popularizar la creación musical

SongGeneration no sólo es tecnológicamente avanzada, sino que, lo que es más importante, está abierta a la comunidad mediante un enfoque de código completamente abierto, lo que inyecta un fuerte impulso al desarrollo del ecosistema de la IA musical.

Experiencia multiplataforma

Actualmente, los usuarios pueden experimentar SongGeneration a través de múltiples canales:

Como proyecto de código abierto, SongGeneration abre un nuevo camino para el desarrollo del campo de la IA musical. No sólo reduce el umbral técnico de la creación musical, sino que también proporciona potentes herramientas básicas para investigadores y desarrolladores. Con la continua contribución de la comunidad y la continua iteración de la tecnología, tenemos motivos para creer que SongGeneration impulsará toda la industria de la creación musical hacia una dirección más inteligente y popularizada.

Este hito marca un gran avance en la tecnología de creación musical por IA, haciendo realidad la visión de "todo el mundo puede crear música" e inyectando infinitas posibilidades al desarrollo de la industria musical en el futuro.

Para más productos, visite

Más información en

ShirtAI - Inteligencia penetrante El Gran Modelo AIGC: el comienzo de una era de doble revolución en ingeniería y ciencia - Inteligencia Penetrante
Restauración 1:1 de Claude y GPT Sitio web oficial - AI Cloud Native Live Match App Global HD Sports Viewing Player (Recomendado) - Blueshirt Technology
Servicio de tránsito basado en la API oficial - GPTMeta API Ayuda, ¿alguien de ustedes puede proporcionar algunos consejos sobre cómo hacer preguntas en GPT? - Conocimientos
Tienda digital global de bienes virtuales - Global SmarTone (Feng Ling Ge) ¿Qué tan poderoso es Claude airtfacts característica que GPT al instante no huele bien? -BeepBeep

espacio publicitario

¡Presenciemos juntos la supermagia de la IA!

Adopte su asistente de inteligencia artificial y aumente su productividad con un solo clic.