AI音楽制作の新たなマイルストーン
人工知能技術の急速な発展により、音楽創作の分野はかつてない変化を遂げつつある。最近、テンセントAIラボは「SongGeneration」と呼ばれるオープンソースの音楽生成モデルをリリースした。これは、「誰もが音楽を創造できる」というビジョンを技術的に強力にサポートするイノベーションである。
従来の音楽制作は、専門的な音楽知識や高価な機材を必要とすることが多かったが、SongGenerationの登場は、これらの敷居を完全に取り払った。このモデルは高品質な楽曲を生成できるだけでなく、より重要なのは、オープンソースという形で社会全体に開かれているため、一般ユーザーもAIによる音楽制作の魅力を体験できることだ。
音質性能の低さ、音楽性の欠如、生成速度の遅さといった音楽生成技術に共通する課題を背景に、SongGenerationは革新的な技術アーキテクチャとトレーニング方法によってこれらの重要な問題を解決することに成功し、音楽AI分野に新たなベンチマークを打ち立てた。
SongGenerationモデル体験アドレス:https://huggingface.co/spaces/tencent/SongGeneration
指先で音楽制作ができるパワフルな機能
SongGenerationは4つの核となる機能を備えており、それぞれが音楽生成の分野における技術力を示している:
インテリジェント・テキスト・コントロール
ユーザーは簡単なキーワードの組み合わせを入力するだけで、希望するスタイルやムードにマッチした楽曲を完成させることができる。例えば、"ハッピーポップ "と入力すれば、ハッピーな雰囲気のポップソングが自動生成され、"激しいロック "と入力すれば、力強いリズムのロック曲が生成される。この直感的なインタラクションにより、音楽制作がかつてないほど簡単になりました。
精密なスタイル
この機能により、ユーザーは10秒以上のリファレンス・オーディオ・クリップをアップロードすることができ、SongGenerationはそれを詳細に分析し、高い一貫性を持った新しい楽曲を生成します。ポップス、ロック、中国語、あるいは様々な「聖なる」スタイルであろうと、このモデルはそのエッセンスを正確に捉え、再現することができる。
マルチ軌道生成技術
SongGenerationは、ボーカルトラックとバッキングトラックを別々に自動生成します。このシステムは、メロディー、構造、リズム、オーケストラの高度なマッチングを保証し、ポストプロダクションでの音楽編集やミキシングを非常に容易にします。
トーンクローニング機能
リファレンス・ベースのトーン・フォローにより、SongGenerationは「トーン・クローン」であるボーカル・パフォーマンスを生成することができます。生成された楽曲は、リファレンス音声に非常に近いだけでなく、自然なサウンドと卓越した音質を維持し、感情表現も豊かです。


革命的なテクノロジー・アーキテクチャと革新的なブレークスルー
SongGenerationの技術アーキテクチャは、データ処理パイプラインと生成モデルの2つのコアコンポーネントで構成され、一連の革新的な技術によって優れたパフォーマンスを実現している。
データ処理パイプライン
このモデルは、音声と伴奏の分離、構造解析、歌詞認識など、いくつかの重要なモジュールを統合した完全な音楽データ処理システムを構築する。このパイプラインを通じて、システムは生音声から歌詞情報を正確に抽出することができ、同時に音楽構造、ジャンルタイプ、音質レベルなどの重要なラベル付きデータを得ることができ、後続のモデル学習のための高品質なデータ基盤を提供する。

超低ビットレート・コーデック
SongGenerationは、オープンソースモデリング用に業界最低ビットレートのデュアルチャンネル48kHz高音質音楽コーデックを開発し、音楽コーデックの分野で大きなブレークスルーを達成しました。このコーデックは、わずか25Hz、0.35kbpsという非常に低いビットレートで現在入手可能な最高の音楽再構成結果を達成し、言語モデルのモデリング負担を大幅に軽減します。
ハイブリッド・モードは、ボーカルとバッキング・ボーカルが調和してまとまるようにモデリングを統一し、デュアル・モードは、細部をより明確にするために、それぞれ独立してモデリングされます。

複数クラス・トークンの並列予測
このモデルは、複数のトークン・カテゴリーに対して「最初にミックス、次にダブルトラック」という並列予測戦略を開拓している。まず言語モデルがハイブリッド・トークンを予測し、メロディーやリズムのようなハイレベルな構造情報の全体的な配置を導き、次に拡張自己回帰デコーダーが2トラック・トークンをモデル化し、ボーカルやバッキング・ボーカルなどのきめ細かな変化を捉える。この設計により、シーケンス長を大幅に増加させることなく並列予測を実現し、トークン間の相互干渉を避けることができる。
多次元的人間嗜好アライメント
SongGenerationは、音楽性嗜好、歌詞整合性嗜好、キュー整合性嗜好の3つの次元に焦点を当てた、多次元的な人間の嗜好を整合させる業界初の大規模な音楽生成モデルである:
好みのタイプ | 施工方法 | 効果 |
---|---|---|
音楽性の好み | 手動でラベル付けされた少量の採点データで報酬モデルをトレーニングする | 音楽を生み出す芸術性とリスニング体験を高める |
歌詞の整列設定 | 訓練済みASRモデルを用いた音素エラー数の計算 | 歌詞が歌われている内容と正確に一致していることを確認する。 |
キューの一貫性の好み | MuQ-MuLanによるテキストと音声の類似度計算 | ユーザー・インストラクションへの準拠を強化したモデル |
3段階のトレーニングパラダイム
このモデルは、革新的な3段階のトレーニング戦略を採用している。事前トレーニング段階では、さまざまな条件入力と音楽表現とのモーダル・アライメントに焦点を当て、モジュール式拡張トレーニング段階では、2トラック・トークンの並列モデリングを達成するための拡張モジュールをトレーニングし、マルチ・プリファレンス・アライメント・トレーニング段階では、人間の嗜好を統合して、人間の嗜好にマッチした音楽を生成するようにモデルを最適化する。
優れた業績に対する権威ある評価
SongGenerationのパフォーマンスを総合的に評価するため、テンセントAIラボは中国伝媒大学音楽芸術学院と共同で、客観的な分析と主観的な認識を含む総合的な評価システムを構築した。
客観的な評価結果
客観的なツールレビューにおいて、SongGenerationはいくつかの商用モデル(Suno v4.5、Sponge Music、Mureka O1)やオープンソースモデル(YuE、DiffRhythm、ACE-Step、SongGen)と徹底的に比較された:
評価の次元 | ソングジェネレーション・パフォーマンス | ランキング |
---|---|---|
生産品質(PQ) | 有能 | いちにをあらそう |
コンテンツ鑑賞(CE) | 有能 | いちにをあらそう |
コンテンツ・ユーティリティ(CU) | 有能 | いちにをあらそう |
生産複雑度(PC) | 良好 | リード |

主観的評価結果
SongGenerationは、主観的なマニュアルレビューにおいて、いくつかの重要な次元で優れていた:
- 歌詞の正確さSunoを含む多くの大型モデルを凌駕し、優れた音声対テキストアライメントを実証
- メロディック・パフォーマンス音楽性、感情表現、音楽的なラインのセンスという点で優れている。
- 伴奏の質: 豊かで変化に富んだオーケストレーションとメインテーマとの高い統合性。
- 総合成績Sunoの最新バージョンv4.5と商用モデルレベルまで同等。
テスト結果によると、SongGenerationはオープンソースモデルの中で首位を堅持し、商用モデルとの比較でも首位を獲得しており、その技術力と応用価値を十分に証明している。

オープン・エコロジーが音楽制作の普及に貢献
SongGenerationは技術的に先進的であるだけでなく、より重要なことは、完全なオープンソースアプローチを用いてコミュニティに開かれており、音楽AIエコシステムの発展に強い勢いを注入していることだ。
マルチプラットフォーム体験アプローチ
現在、ユーザーは複数のチャンネルを通じてSongGenerationを体験することができる:
- ハギング・フェイス・プラットフォーム::https://huggingface.co/tencent/SongGeneration
- GitHubオープンソースリポジトリ::https://github.com/tencent-ailab/SongGeneration
- 学術論文::https://arxiv.org/abs/2506.07520
オープンソースプロジェクトとして、SongGenerationは音楽AI分野の発展に新たな道を開く。音楽制作の技術的な敷居を下げるだけでなく、研究者や開発者に強力な基本ツールを提供します。コミュニティの継続的な貢献と技術の継続的な反復により、SongGenerationが音楽制作業界全体をよりインテリジェントで大衆化された方向へと押し上げると信じる理由がある。
この画期的な成果は、AIによる音楽制作技術の大きなブレークスルーを示すものであり、「誰もが音楽を創作できる」というビジョンを真に実現し、今後の音楽産業の発展に無限の可能性をもたらすものです。