マストゥゴにお会いしましょう:ディフュージョンに基づいた音楽ドメイン知識に触発されたテキストから音楽へのシステムですタンゴのテキストからオーディオへのモデルを拡張します

「マストゥゴに会いに行こう:音楽ドメインの知識に触発されたテキストから音楽へのシステム、タンゴのテキストからオーディオへのモデル拡張」

テキストから音楽への合成の領域では、生成されるコンテンツの品質は向上してきていますが、音楽的な側面の操作性は未開拓のままです。シンガポール工科大学とクイーンメアリー大学ロンドン校の研究者チームは、この課題に対する解決策であるMustangoというものを紹介しました。このソリューションは、一般的なテキストのキャプションだけでなく、和音、ビート、テンポ、キーに関連する具体的な指示を含むより豊かなキャプションを使用して生成された音楽を制御することを目指しています。

研究者たちは、マルチストアリーム散逸モデルベースの音楽ドメイン知識を活用したテキストから音楽への合成システムであるMustangoを紹介しています。彼らは、散逸モデルから直接音楽を生成する際のユニークな課題を強調し、条件付けテキストと音楽性のバランスをとる必要性を述べています。Mustangoにより、ミュージシャン、プロデューサー、サウンドデザイナーは、和音進行やテンポ、キーの選択などの特定の条件を持つ音楽クリップを作成することができます。

Mustangoの一部として、研究者たちは、音楽ドメイン知識をもとにしたUNetサブモジュールであるMuNetを提案しています。MuNetは、テキストのプロンプトから予測された音楽固有の特徴(和音、ビート、キー、テンポなど)を、散逸ノイズ除去プロセスに統合します。音楽とテキストキャプションが組み合わさったオープンデータセットの提供が限られているという制約に対応するため、研究者たちは新しいデータ拡張手法を導入しています。この手法では、音楽オーディオの調和、リズム、ダイナミックな要素を変化させ、音楽情報抽出の手法を使用して音楽特徴を抽出し、既存のテキスト説明に追加することで、MusicBenchデータセットを生成しています。

MusicBenchデータセットは、ビート、ダウンビートの位置、基礎となる和音進行、キー、テンポを持つ、元のテキスト説明を豊かにする52,000以上のインスタンスを含んでいます。研究者たちは、Mustangoが最先端の音楽の品質を達成していることを示す、幅広い実験を実施しています。また、複数のデータセットにおいて、和音、ビート、キー、テンポなどの望ましい条件を捉える能力においてMustangoのコントロール性能を重視し、プロンプトからコントロール文がないシナリオにおけるこれらの予測子の適応性を評価し、Mustangoがそのような場合においてTangoを上回る優れた性能を示すことを観察しました。つまり、コントロール予測子は性能を損なわないという結果です。

実験には、TangoなどのベースラインやMustangoのバリアントとの比較を含み、提案されたデータ拡張手法がパフォーマンス向上にどれほど効果的であるかを示しています。スクラッチからトレーニングされたMustangoは、音質、リズムの存在、調和性などの面でTangoや他のバリアントを上回る最高のパフォーマンスを発揮しています。Mustangoは1.4Bのパラメータを持ち、Tangoよりもはるかに多いです。

総括すると、研究者たちはテキストから音楽への合成において、Mustangoが重要な進歩であると紹介しています。既存のシステムにおけるコントロール性のギャップに対処し、広範な実験によって提案手法の効果を示しています。Mustangoは最先端の音楽品質を実現するだけでなく、向上したコントロール性を提供し、この分野における貴重な貢献となっています。研究者たちは、テキストから音楽への合成に関する将来の研究のためのリソースとして、MusicBenchデータセットを公開しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「大規模な言語モデルの探索-パート3」

「この記事は主に自己学習のために書かれていますしたがって、広く深く展開されています興味のあるセクションをスキップした...

データサイエンス

自律AIエージェント:データサイエンスと技術の未来を切り拓く先駆者

イントロダクション テクノロジーのダイナミックな風景において、自律型AIエージェントは変革的な存在として登場し、データと...

AIニュース

(sekai no toppu 10 no sōsei AI sutātappu)

はじめに 生成AIは現在、世界中の人々の好奇心を引きつけています。私たちのソーシャルネットワーキングフィード内の仮想キャ...

機械学習

「2023年の機械学習のアンラーニング:現在の状況と将来の方向性」

「夜中に目が覚めたまま、脳が何度も再生するほど恥ずかしい記憶の一部を忘れたいと思ったことはありますか?特定の記憶を心...

AI研究

黄さんの法則に留意する:エンジニアたちがどのように速度向上を進めているかを示すビデオ

話の中で、NVIDIAのチーフサイエンティストであるビル・ダリー氏が、モーアの法則時代後のコンピュータパフォーマンスの提供...

人工知能

「AIが航空会社のコントレイルによる気候への影響を軽減するのに役立っている方法」

「私たちはAIを使用して、航空会社がコントレイルの発生が少ないルートを選択するのを支援し、飛行の環境への影響を最小限に...