В то время как генеративный ИИ стремительно развивается, технология генерации видео становится новым полем битвы для крупных технологических компаний. Вслед за OpenAI's Sora, которая вызвала глобальный резонанс, отечественные производители также запустили свои собственные решения для генерации видео с помощью ИИ. Недавно команда коммерческих исследований и разработок Baidu выпустила большую модель мультимодальной генерацииMuseSteamerЭтот продукт не только занял первое место в зарубежном авторитетном оценочном списке VBench, но и стал первым в Китае устройством одновременной генерации аудио и видео.

Анатомия основных технических возможностей MuseSteamer
Мощное семантическое понимание китайского языка
Самая выдающаяся особенность MuseSteamer - глубокая оптимизация под китайский контекст. Благодаря созданию миллиардной базы данных видеофрагментов и использованию трехступенчатой системы оптимизации данных "отбор-очистка-сопоставление" модель обеспечивает точное семантическое соответствие между текстовыми инструкциями и визуальными элементами. Такая целенаправленная обработка данных позволяет модели точно понимать нюансы и культурный подтекст китайских подсказок.
Система точного описания структуры видео
В отличие от основных продуктов отрасли, MuseSteamer использует структурированный метод описания видео, который не только содержит детали изображения (объект, фон, движение, атмосферу, свет и тень), но и глубоко интегрирует профессиональные элементы, такие как язык камеры, интенсивность движения объекта и описание стиля. Эта усовершенствованная система описания охватывает широкий спектр стилей, таких как реалистичный, кинематографический, киберпанк, винтажный фильм, минимализм и аниме.
Интеграция аудио-видео генерирует прорывы
Одна из главных инноваций MuseSteamer - реальная синхронная генерация аудио и видео. Благодаря мультимодальному планированию и интегрированным моделям обучения аудио и видео система может автоматически решать три основных вопроса: "кто говорит, как говорит и в какой обстановке", так что многодорожечное аудио, такое как диалоги, фоновые звуки, музыка и т. д., естественно интегрируется с визуальным контентом, что значительно повышает степень погружения зрителя в происходящее.

Широкий ассортимент продукции для удовлетворения различных потребностей
MuseSteamer предлагает полную матрицу версий продуктов, которые точно покрывают различные потребности как индивидуальных творцов, так и профессиональных кино- и телеорганизаций:

Практические испытания: возможности и ограничения одновременно
Выдающиеся результаты в семантическом понимании
В тесте на семантическое восприятие MuseSteamer продемонстрировал впечатляющие результаты. Возьмем в качестве примера "школьник вскакивает, чтобы забросить баскетбольный мяч на игровой площадке вечером, его фигура вытягивается в лучах заходящего солнца". Модель точно воспроизводит весь ход действия прыжка и броска, тень персонажа соответствует действию, а эффект закатного света и тени естественен и реалистичен. MuseSteamer демонстрирует более высокую способность к семантическому разбору, чем аналогичные продукты, у которых есть отклонения в понимании действий.
Непрерывность действия заслуживает внимания
В тесте "кролик стучит по клавиатуре, затем берет чашку для питья одной рукой и продолжает стучать по клавиатуре другой рукой" MuseSteamer не только завершает основную последовательность действий, но и самостоятельно добавляет персонажу богатую мимику и микродвижения, делая статичный графический персонаж ярким и живым. Хотя цепочка действий немного неполная, общая согласованность удовлетворительная.
Отличные показатели в контроле стиля
В тесте на стиль фэнтези MuseSteamer точно воспроизвел описание сцены: "В стиле фэнтези маленькая девочка бежит вперед на сияющем единороге через долину плавающих цветных пузырьков". Полученное видео наполнено мягким ореолом света, разноцветными пузырьками, звездным светом, трепещущими юбками и другими детализированными элементами, а общий стиль един и согласован.
Необходимо улучшить возможности перемещения объектива
Однако MuseSteamer обнаруживает существенные недостатки в плане сложных маневров камеры. В тесте "камера вокруг летучей мыши-детектива" модель почти не достигла эффективного движения камеры, что может быть связано с техническими ограничениями текущей версии. Хотя относительно простая команда "уменьшить масштаб" в принципе может быть выполнена, по краям экрана будут заметны явные дефекты склейки.
Эффективность генерации все еще нуждается в оптимизации
Из общего опыта тестирования следует, что скорость генерации MuseSteamer относительно медленная, обычно занимает 3-5 минут, что может повлиять на плавность рабочего процесса для пользователей, которым необходимо быстро итерировать свои творения.
Будущая картина генерации видео с помощью искусственного интеллекта
Выпуск MuseSteamer свидетельствует о том, что отечественная технология создания видео с помощью искусственного интеллекта стремительно догоняет передовой международный уровень. Несмотря на то, что в некоторых сложных сценариях еще есть над чем работать, ее прорыв в области семантического понимания китайского языка, управления стилями и синхронизации аудио/видео установил новую планку для индустрии.
После официального выхода аудиоверсии в августе и последующего запуска версий Pro и Lite, MuseSteamer, как ожидается, создаст экологию искусственного интеллекта для создания видео, которая охватит всю сцену. Для создателей контента это означает не только обновление инструментов создания, но и фундаментальные изменения в способе творческого самовыражения.
Турбо-версия MuseSteamer в настоящее время доступна бесплатно на платформе "EYE", заинтересованные пользователи могут посетить huixiang.baidu.com Испытайте эту революционную технологию создания видео с искусственным интеллектом на себе.
