Содержание Подробности

В мире, где технологии и знания переплетаются друг с другом, каждое чтение похоже на удивительное приключение, которое дает вам ощущение мудрости и вдохновляет на бесконечное творчество.

SongGeneration: инструмент с открытым исходным кодом, открывающий новую эру создания музыки с помощью искусственного интеллекта

Новая веха в создании музыки с помощью искусственного интеллекта

С быстрым развитием технологий искусственного интеллекта сфера создания музыки претерпевает беспрецедентные изменения. Недавно Tencent AI Lab выпустила модель генерации музыки с открытым исходным кодом под названием SongGeneration - инновацию, которая обеспечивает мощную техническую поддержку концепции "каждый может создавать музыку".

Традиционное создание музыки зачастую требует профессиональных музыкальных знаний и дорогостоящего оборудования, а появление SongGeneration полностью ломает эти пороги. Модель не только способна генерировать высококачественные музыкальные композиции, но, что еще важнее, она открыта для всего общества в виде открытого исходного кода, так что каждый обычный пользователь может ощутить всю прелесть создания музыки с помощью искусственного интеллекта.

На фоне общих проблем, связанных с низким качеством звука, отсутствием музыкальности и низкой скоростью генерации музыки, SongGeneration успешно решает эти ключевые проблемы благодаря своей инновационной технической архитектуре и методологии обучения, устанавливая новую планку в области музыкального ИИ.

SongGeneration модель опыт адрес:https://huggingface.co/spaces/tencent/SongGeneration

Мощные функции, позволяющие создавать музыку на кончиках ваших пальцев

SongGeneration оснащен четырьмя основными функциями, каждая из которых демонстрирует его технологическое превосходство в области генерации музыки:

Интеллектуальное управление текстом

Пользователю достаточно ввести простую комбинацию ключевых слов, чтобы сгенерировать полное музыкальное произведение, соответствующее желаемому стилю и настроению. Например, если пользователь введет "happy pop", система автоматически создаст поп-песню с радостной атмосферой; если пользователь введет "intense rock", она сгенерирует рок-композицию с сильным ритмом. Благодаря такому интуитивному взаимодействию создание музыки становится как никогда простым.

Точное следование стилю

Эта функция позволяет пользователям загружать 10-секундный или более эталонный аудиоклип, который SongGeneration тщательно анализирует и генерирует новое музыкальное произведение с высокой степенью согласованности. Будь то поп, рок, китайская музыка или любой другой из "священных" стилей, модель может точно уловить и воспроизвести их суть, обеспечивая при этом хорошую музыкальность вновь созданной музыки.

Технология генерации на нескольких орбитах

SongGeneration автоматически генерирует отдельные вокальные и бэк-треки, что очень важно для музыкального производства. Система обеспечивает высокую степень мелодического, структурного, ритмического и оркестрового соответствия, что значительно облегчает редактирование и сведение музыки на этапе постпродакшн.

Возможность клонирования тембров

Эталонное следование тембру позволяет SongGeneration генерировать вокальные исполнения, которые являются "тональными клонами". Полученные композиции не только очень похожи на эталонный звук, но и сохраняют естественное звучание и превосходное качество звука, а также отличаются эмоциональной выразительностью.

Революционная технологическая архитектура и инновационные прорывы

Техническая архитектура SongGeneration состоит из двух основных компонентов, конвейера обработки данных и генеративной модели, и достигает превосходной производительности благодаря ряду инновационных технологий.

Конвейер обработки данных

Модель представляет собой комплексную систему обработки музыкальных данных, объединяющую несколько ключевых модулей, таких как разделение аудио и аккомпанемента, анализ структуры и распознавание текстов. Благодаря этому система способна точно извлекать информацию о тексте из необработанного аудио и одновременно получать важные маркированные данные, такие как структура музыки, тип жанра, уровень качества звука и т. д., что обеспечивает высококачественную базу данных для последующего обучения модели.

Кодеки со сверхнизкой скоростью передачи данных

Компания SongGeneration совершила значительный прорыв в области музыкальных кодеков, разработав самый низкобитрейтный в отрасли двухканальный 48 кГц высококачественный музыкальный кодек для моделирования с открытым исходным кодом. Кодек позволяет достичь наилучших результатов реконструкции музыки, доступных на сегодняшний день, при очень низком битрейте всего 25 Гц и 0,35 кбит/с, что значительно снижает нагрузку на языковые модели.

В системе предусмотрено два режима кодирования - Hybrid и Dual: Hybrid объединяет моделирование вокала и бэк-вокала, обеспечивая их гармоничную целостность, а Dual моделирует их независимо друг от друга, что позволяет получить более четкое представление о деталях.

Параллельное предсказание многоклассовых лексем

Модель использует параллельную стратегию предсказания "сначала микс, потом дабл-трек" для нескольких категорий лексем. Сначала языковая модель предсказывает гибридные лексемы для общего расположения высокоуровневой структурной информации, такой как мелодия и ритм, а затем расширенный авторегрессионный декодер моделирует двухдорожечные лексемы, чтобы уловить тонкие вариации вокала и бэк-вокала. Такая конструкция позволяет добиться параллельного предсказания без значительного увеличения длины последовательности и избежать взаимных помех между лексемами.

Многомерное выравнивание человеческих предпочтений

SongGeneration - это первая в индустрии крупная модель генерации музыки, которая согласует многомерные человеческие предпочтения, фокусируясь на трех измерениях: предпочтение музыкальности, предпочтение выравнивания текста и предпочтение согласованности реплик:

Тип предпочтенияМетоды строительстваэффект
предпочтение в музыкальностиОбучение моделей вознаграждения на небольшом количестве вручную маркированных данных оценокПовышайте артистизм и улучшайте впечатления от прослушивания генерируемой музыки
Параметры выравнивания лирикиПодсчет количества ошибок в фонемах с помощью предварительно обученной модели ASRУбедитесь, что текст песни точно соответствует тому, что поется
Предпочтения по согласованности репликВычисление сходства текста и звука с помощью MuQ-MuLanУлучшенное соответствие модели инструкциям пользователя

Трехступенчатая парадигма обучения

Модель использует инновационную трехфазную стратегию обучения: фаза предварительного обучения фокусируется на модальном согласовании различных условных входов с музыкальными представлениями; фаза модульного расширения обучает модули расширения для достижения параллельного моделирования двухдорожечных лексем; и фаза обучения выравниванию мульти-предпочтений интегрирует предпочтения человека, чтобы оптимизировать модель для генерации музыки, соответствующей предпочтениям человека.

Авторитетное признание превосходства в работе

Чтобы всесторонне оценить работу SongGeneration, Tencent AI Lab совместно со Школой музыки и звукозаписи при Университете коммуникаций Китая создали комплексную систему оценки, включающую объективный анализ и субъективное восприятие.

Результаты объективной оценки

В объективном обзоре инструментов SongGeneration был тщательно сравнен с несколькими коммерческими моделями (Suno v4.5, Sponge Music, Mureka O1) и моделями с открытым исходным кодом (YuE, DiffRhythm, ACE-Step, SongGen):

Измерение оценкиПроизводительность SongGenerationРейтинг
Качество продукции (PQ)талантливыйбыть номером один (лучшим или худшим)
Оценка содержания (CE)талантливыйбыть номером один (лучшим или худшим)
Content Utility (CU)талантливыйбыть номером один (лучшим или худшим)
Сложность производства (PC)благоприятныйсвинец

Результаты субъективной оценки

SongGeneration превзошла по нескольким ключевым параметрам субъективные отзывы руководства:

  • Точность лирики: превосходит многие крупные модели, включая Suno, демонстрируя превосходное согласование речи с текстом
  • мелодичное исполнение: Превосходно с точки зрения музыкальности, эмоциональной выразительности и чувства музыкальной линии.
  • качество сопровождения: богатая и разнообразная оркестровка и высокая интеграция с главной темой
  • общая производительность: Сравнимо с последней версией Suno v4.5, вплоть до уровня коммерческой модели.

Результаты тестирования показывают, что SongGeneration уверенно занимает первое место среди моделей с открытым исходным кодом, а также занимает первое место в сравнении с коммерческими моделями, полностью подтверждая свою техническую мощь и ценность применения.

Открытая экология помогает популяризировать создание музыки

SongGeneration не только технологически совершенна, но и, что более важно, открыта для сообщества, используя полностью открытый исходный код, что придает мощный импульс развитию экосистемы музыкального ИИ.

Подход, основанный на многоплатформенном опыте

В настоящее время пользователи могут познакомиться с SongGeneration по нескольким каналам:

Будучи проектом с открытым исходным кодом, SongGeneration открывает новый путь для развития области музыкального ИИ. Он не только снижает технический порог создания музыки, но и предоставляет мощные базовые инструменты для исследователей и разработчиков. При постоянном участии сообщества и непрерывном совершенствовании технологии у нас есть основания полагать, что SongGeneration подтолкнет всю индустрию создания музыки к более интеллектуальному и популяризированному направлению.

Это значительное достижение знаменует собой серьезный прорыв в технологии создания музыки с помощью искусственного интеллекта, по-настоящему реализуя идею "каждый может создавать музыку" и открывая безграничные возможности для развития музыкальной индустрии в будущем.

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

ShirtAI - проникающий интеллект Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge) Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep
Поиск

категории.

Информационный бюллетень

рекламное пространство

Станьте свидетелями супермагии искусственного интеллекта вместе!

Примите в свои объятия помощника с искусственным интеллектом и повысьте свою производительность одним щелчком мыши!