Un nuevo hito en la creación musical con IA
Con el rápido desarrollo de la tecnología de inteligencia artificial, el campo de la creación musical está experimentando un cambio sin precedentes. Recientemente, Tencent AI Lab lanzó un modelo de generación de música de código abierto llamado SongGeneration, una innovación que proporciona un fuerte apoyo técnico a la visión de "todo el mundo puede crear música".
La creación musical tradicional suele requerir conocimientos musicales profesionales y equipos caros, y la aparición de SongGeneration rompe por completo estos umbrales. El modelo no solo es capaz de generar composiciones musicales de alta calidad, sino que, lo que es más importante, está abierto a toda la sociedad en forma de código abierto, para que cualquier usuario de a pie pueda experimentar el encanto de la creación musical asistida por IA.
En un contexto en el que la tecnología de generación de música se enfrenta a retos comunes como la baja calidad del sonido, la falta de musicalidad y la lentitud de la generación, SongGeneration ha resuelto con éxito estos problemas clave gracias a su innovadora arquitectura técnica y su metodología de formación, estableciendo un nuevo punto de referencia en el campo de la inteligencia artificial musical.
Dirección de experiencia del modelo SongGeneration:https://huggingface.co/spaces/tencent/SongGeneration
Potentes funciones que ponen la creación musical al alcance de tu mano
SongGeneration está equipado con cuatro funciones básicas, cada una de las cuales demuestra su destreza tecnológica en el campo de la generación de música:
Control inteligente de textos
Los usuarios sólo tienen que introducir una sencilla combinación de palabras clave para generar una pieza musical completa que coincida con el estilo y el estado de ánimo deseados. Por ejemplo, cuando el usuario introduce "pop alegre", el sistema creará automáticamente una canción pop con un ambiente feliz; cuando introduce "rock intenso", generará una pieza de rock con un ritmo fuerte. Esta interacción intuitiva hace que la creación musical sea más fácil que nunca.
Estilo de precisión siguiente
Esta función permite a los usuarios cargar un clip de audio de referencia de 10 segundos o más, que SongGeneration analiza en profundidad y genera una nueva pieza musical con un alto grado de coherencia. Ya sea pop, rock, chino o cualquiera de los diversos estilos "sagrados", el modelo puede captar y reproducir con precisión su esencia, garantizando al mismo tiempo que la música recién generada tenga una buena musicalidad.
Tecnología de generación multiórbita
SongGeneration genera automáticamente pistas vocales y de acompañamiento separadas, una característica de gran importancia para la producción musical. El sistema garantiza un alto grado de coincidencia melódica, estructural, rítmica y orquestal, lo que facilita enormemente la edición y mezcla musical posterior a la producción.
Clonación de tonos
El seguimiento de tonos basado en referencias permite a SongGeneration generar interpretaciones vocales que son "clones de tonos". Las canciones resultantes no solo suenan muy parecidas al audio de referencia, sino que también mantienen un sonido natural y una calidad sonora excepcional, además de ser emocionalmente expresivas.


Arquitectura tecnológica revolucionaria y avances innovadores
La arquitectura técnica de SongGeneration consta de dos componentes básicos, el canal de procesamiento de datos y el modelo generativo, y consigue un rendimiento superior gracias a una serie de tecnologías innovadoras.
Proceso de datos
El modelo construye un sistema completo de procesamiento de datos musicales que integra varios módulos clave, como la separación audio-acompañamiento, el análisis de estructuras y el reconocimiento de letras. De este modo, el sistema es capaz de extraer con precisión la información de la letra a partir del audio sin procesar y, al mismo tiempo, obtener datos etiquetados importantes como la estructura de la música, el tipo de género, el nivel de calidad del sonido, etc., lo que proporciona una base de datos de alta calidad para el posterior entrenamiento del modelo.

Códecs de velocidad de bits ultrabaja
SongGeneration ha logrado un gran avance en el campo de los códecs musicales al desarrollar el códec musical de alta calidad de 48 kHz y doble canal con la tasa de bits más baja del sector para el modelado de código abierto. El códec consigue los mejores resultados de reconstrucción musical disponibles en la actualidad a una velocidad de bits muy baja, de sólo 25 Hz y 0,35 kbps, lo que reduce considerablemente la carga de modelado de los modelos lingüísticos.
El sistema está diseñado con dos modos de codificación, Híbrido y Dual: los modos Híbrido unifican el modelado de voces y coros para garantizar su coherencia armónica, mientras que los modos Dual se modelan de forma independiente para ofrecer una imagen más clara de los detalles.

Predicción paralela de tokens multiclase
El modelo es pionero en una estrategia de predicción paralela de "mezcla primero, doble pista después" para múltiples categorías de tokens. En primer lugar, el modelo lingüístico predice los tokens híbridos para orientar la disposición general de la información estructural de alto nivel, como la melodía y el ritmo, y después el descodificador autorregresivo ampliado modela los tokens de dos pistas para captar las variaciones finas de las voces y los coros. Este diseño consigue una predicción paralela sin aumentar significativamente la longitud de la secuencia y evita la interferencia mutua entre los tokens.
Alineación multidimensional de las preferencias humanas
SongGeneration es el primer gran modelo de generación musical de la industria que alinea las preferencias humanas multidimensionales, centrándose en tres dimensiones: preferencia por la musicalidad, preferencia por la alineación de las letras y preferencia por la coherencia de las pistas:
Tipo de preferencia | Métodos de construcción | efecto |
---|---|---|
preferencia musical | Entrenamiento de modelos de recompensa con una pequeña cantidad de datos de puntuación etiquetados manualmente | Mejorar el arte y la experiencia auditiva de generar música |
Preferencias de alineación de letras | Cálculo del número de errores de fonemas utilizando un modelo ASR preentrenado | Asegurarse de que la letra coincide con lo que se está cantando. |
Preferencias de coherencia de las señales | Cálculo de la similitud texto-audio mediante MuQ-MuLan | Mejora de la conformidad del modelo con las instrucciones de uso |
Paradigma de formación en tres etapas
El modelo adopta una innovadora estrategia de entrenamiento en tres fases: la fase de preentrenamiento se centra en la alineación modal de distintas entradas condicionales con representaciones musicales; la fase de entrenamiento de extensión modular entrena módulos de extensión para lograr un modelado paralelo de tokens de dos pistas; y la fase de entrenamiento de alineación multipreferencia integra las preferencias humanas para optimizar el modelo con vistas a generar música que se ajuste a las preferencias humanas.
Reconocimiento autorizado de la excelencia en el rendimiento
Para evaluar exhaustivamente el rendimiento de SongGeneration, Tencent AI Lab, junto con la Escuela de Música y Artes de Grabación de la Universidad de Comunicación de China, estableció un sistema de evaluación integral que incluye análisis objetivos y percepción subjetiva.
Resultados objetivos de la evaluación
En una revisión objetiva de la herramienta, SongGeneration se comparó exhaustivamente con varios modelos comerciales (Suno v4.5, Sponge Music, Mureka O1) y de código abierto (YuE, DiffRhythm, ACE-Step, SongGen):
Dimensión de evaluación | Rendimiento de SongGeneration | Clasificación |
---|---|---|
Calidad de la producción (CP) | talento | ser el número uno (el mejor o el peor) |
Valoración de contenidos (CE) | talento | ser el número uno (el mejor o el peor) |
Content Utility (CU) | talento | ser el número uno (el mejor o el peor) |
Complejidad de la producción (CP) | favorable | plomo |

Resultados de la evaluación subjetiva
SongGeneration sobresalió en varias dimensiones clave en las revisiones manuales subjetivas:
- Precisión de las letras: Supera a muchos modelos de gran tamaño, incluido Suno, demostrando una excelente alineación voz-texto.
- interpretación melódicaExcelente en términos de musicalidad, expresión emocional y sentido de la línea musical.
- calidad del acompañamientoorquestación rica y variada y gran integración con el tema principal
- rendimiento generalComparable a la última versión v4.5 de Suno, hasta el nivel de modelo comercial.
Los resultados de las pruebas demuestran que SongGeneration ocupa firmemente el primer puesto entre los modelos de código abierto y también el primero en la comparación de modelos comerciales, lo que demuestra plenamente su solidez técnica y su valor de aplicación.

La ecología abierta ayuda a popularizar la creación musical
SongGeneration no sólo es tecnológicamente avanzada, sino que, lo que es más importante, está abierta a la comunidad mediante un enfoque de código completamente abierto, lo que inyecta un fuerte impulso al desarrollo del ecosistema de la IA musical.
Experiencia multiplataforma
Actualmente, los usuarios pueden experimentar SongGeneration a través de múltiples canales:
- Plataforma Cara Abrazada::https://huggingface.co/tencent/SongGeneration
- Repositorio de código abierto GitHub::https://github.com/tencent-ailab/SongGeneration
- trabajo académico::https://arxiv.org/abs/2506.07520
Como proyecto de código abierto, SongGeneration abre un nuevo camino para el desarrollo del campo de la IA musical. No sólo reduce el umbral técnico de la creación musical, sino que también proporciona potentes herramientas básicas para investigadores y desarrolladores. Con la continua contribución de la comunidad y la continua iteración de la tecnología, tenemos motivos para creer que SongGeneration impulsará toda la industria de la creación musical hacia una dirección más inteligente y popularizada.
Este hito marca un gran avance en la tecnología de creación musical por IA, haciendo realidad la visión de "todo el mundo puede crear música" e inyectando infinitas posibilidades al desarrollo de la industria musical en el futuro.