En un momento en que la IA generativa se desarrolla con rapidez, la tecnología de generación de vídeo se está convirtiendo en un nuevo campo de batalla en el que compiten las grandes empresas tecnológicas. Tras Sora, de OpenAI, que provocó un revuelo mundial, los proveedores nacionales también han lanzado sus propias soluciones de generación de vídeo con IA. Recientemente, el equipo comercial de I+D de Baidu lanzó un gran modelo de generación multimodalMuseSteamerEste producto no sólo obtuvo el primer puesto mundial en la lista de evaluación de autoridades extranjeras VBench, sino que también logró la primera generación simultánea de audio y vídeo en el contexto chino.

Anatomía de las principales capacidades técnicas de MuseSteamer
Potente comprensión semántica del chino
La característica más destacada de MuseSteamer es su profunda optimización para el contexto chino. Mediante la creación de una base de datos de fragmentos de vídeo a escala de miles de millones y la adopción de un sistema de optimización de datos en tres fases de "cribado-purificación-cotejo", garantiza una alineación semántica precisa entre las instrucciones textuales y los elementos visuales. Este tratamiento específico de los datos permite al modelo comprender con precisión los matices y las connotaciones culturales de las señales chinas.
Sistema de descripción detallada de estructuras de vídeo
A diferencia de los principales productos del sector, MuseSteamer adopta un método de descripción de vídeo estructurado, que no sólo contiene detalles de la imagen (sujeto, fondo, movimiento, atmósfera, luz y sombra), sino que también integra en profundidad elementos profesionales como el lenguaje de la cámara, la intensidad del movimiento del sujeto y la descripción del estilo. Este refinado sistema de descripción abarca una amplia gama de tipos de estilo, como el realista, el cinematográfico, el ciberpunk, el de película de época, el minimalista y el anime.
La integración de audio y vídeo genera avances
Una de las principales innovaciones de MuseSteamer es la generación sincrónica real de audio y vídeo. Mediante la programación multimodal y los modelos integrados de aprendizaje de audio y vídeo, el sistema puede gestionar automáticamente las tres cuestiones fundamentales de "quién habla, cómo habla y en qué entorno", de modo que el audio multipista, como diálogos, sonidos de fondo, música, etc., se fusiona de forma natural con el contenido visual, lo que mejora enormemente el grado de inmersión de la experiencia del espectador.

Amplia matriz de productos para satisfacer diferentes necesidades
MuseSteamer ofrece una completa matriz de versiones de productos que cubren con precisión las diversas necesidades de creadores individuales hasta organizaciones profesionales de cine y televisión:

Pruebas prácticas: capacidades y limitaciones al mismo tiempo
Excelente rendimiento en comprensión semántica
En la prueba de comprensión semántica, MuseSteamer mostró un rendimiento impresionante. Si tomamos como ejemplo "un chico de instituto salta para jugar al baloncesto en el patio por la tarde, su figura se estira por la puesta de sol", el modelo reproduce con precisión el flujo completo de la acción de saltar y tirar, la sombra del personaje es coherente con la acción, y el efecto de luz y sombra de la puesta de sol es natural y realista. MuseSteamer muestra una mayor capacidad de análisis semántico que otros productos similares que presentan desviaciones en la comprensión de la acción.
Cabe destacar la continuidad de la acción
En la prueba de "un conejo que da golpecitos en el teclado, luego coge una taza para beber con una mano y sigue dando golpecitos en el teclado con la otra mano", MuseSteamer no sólo completa la secuencia de acción básica, sino que además añade de forma independiente ricas expresiones faciales y micromovimientos al personaje, lo que hace que el personaje gráfico estático resulte vivo y animado. Aunque la cadena de acciones está ligeramente incompleta, la coherencia general es satisfactoria.
Excelente rendimiento en el control del estilo
En la prueba de estilo de fantasía, MuseSteamer reprodujo con precisión la descripción de la escena: "En estilo de fantasía, una niña corre hacia delante sobre un unicornio brillante a través de un valle de burbujas de colores flotantes". El vídeo resultante está lleno de un suave halo de luz, burbujas de colores, luz de estrellas, revoloteo de faldas y otros elementos detallados, y el estilo general está unificado y coordinado.
Es necesario mejorar la capacidad de movimiento del objetivo
Sin embargo, MuseSteamer revela importantes carencias en cuanto a maniobras de cámara complejas. En la prueba de "cámara alrededor del detective murciélago", el modelo casi no consigue un movimiento de cámara eficaz, lo que puede deberse a las limitaciones técnicas de la versión actual. Aunque el relativamente sencillo comando "alejar" puede completarse básicamente, los bordes de la pantalla presentan evidentes fallos de empalme.
Aún hay que optimizar la eficiencia de la generación
Desde la experiencia general de las pruebas, la velocidad de generación de MuseSteamer es relativamente lenta, tardando generalmente entre 3 y 5 minutos, lo que puede afectar a la fluidez del flujo de trabajo para los usuarios que necesitan iterar sus creaciones rápidamente.
La imagen futura de la generación de vídeo con IA
El lanzamiento de MuseSteamer significa que la tecnología nacional de generación de vídeo por IA está alcanzando rápidamente el nivel avanzado internacional. Aunque todavía se puede mejorar en determinados escenarios complejos, sus avances en la comprensión semántica china, el control de estilo y la sincronización de audio y vídeo han establecido un nuevo punto de referencia para el sector.
Con el lanzamiento oficial de la versión de audio en agosto, y el sucesivo de las versiones Pro y Lite, se espera que MuseSteamer construya una ecología de generación de vídeo AI que abarque toda la escena. Para los creadores de contenidos, esto no sólo supone una actualización de las herramientas de creación, sino que también representa un cambio fundamental en la forma de expresión creativa.
La versión Turbo de MuseSteamer está actualmente disponible de forma gratuita en la plataforma "EYE", los usuarios interesados pueden visitar huixiang.baidu.com Experimente usted mismo esta revolucionaria tecnología de generación de vídeo por IA.
