マストゥゴにお会いしましょう:ディフュージョンに基づいた音楽ドメイン知識に触発されたテキストから音楽へのシステムですタンゴのテキストからオーディオへのモデルを拡張します

「マストゥゴに会いに行こう:音楽ドメインの知識に触発されたテキストから音楽へのシステム、タンゴのテキストからオーディオへのモデル拡張」

テキストから音楽への合成の領域では、生成されるコンテンツの品質は向上してきていますが、音楽的な側面の操作性は未開拓のままです。シンガポール工科大学とクイーンメアリー大学ロンドン校の研究者チームは、この課題に対する解決策であるMustangoというものを紹介しました。このソリューションは、一般的なテキストのキャプションだけでなく、和音、ビート、テンポ、キーに関連する具体的な指示を含むより豊かなキャプションを使用して生成された音楽を制御することを目指しています。

研究者たちは、マルチストアリーム散逸モデルベースの音楽ドメイン知識を活用したテキストから音楽への合成システムであるMustangoを紹介しています。彼らは、散逸モデルから直接音楽を生成する際のユニークな課題を強調し、条件付けテキストと音楽性のバランスをとる必要性を述べています。Mustangoにより、ミュージシャン、プロデューサー、サウンドデザイナーは、和音進行やテンポ、キーの選択などの特定の条件を持つ音楽クリップを作成することができます。

Mustangoの一部として、研究者たちは、音楽ドメイン知識をもとにしたUNetサブモジュールであるMuNetを提案しています。MuNetは、テキストのプロンプトから予測された音楽固有の特徴(和音、ビート、キー、テンポなど)を、散逸ノイズ除去プロセスに統合します。音楽とテキストキャプションが組み合わさったオープンデータセットの提供が限られているという制約に対応するため、研究者たちは新しいデータ拡張手法を導入しています。この手法では、音楽オーディオの調和、リズム、ダイナミックな要素を変化させ、音楽情報抽出の手法を使用して音楽特徴を抽出し、既存のテキスト説明に追加することで、MusicBenchデータセットを生成しています。

MusicBenchデータセットは、ビート、ダウンビートの位置、基礎となる和音進行、キー、テンポを持つ、元のテキスト説明を豊かにする52,000以上のインスタンスを含んでいます。研究者たちは、Mustangoが最先端の音楽の品質を達成していることを示す、幅広い実験を実施しています。また、複数のデータセットにおいて、和音、ビート、キー、テンポなどの望ましい条件を捉える能力においてMustangoのコントロール性能を重視し、プロンプトからコントロール文がないシナリオにおけるこれらの予測子の適応性を評価し、Mustangoがそのような場合においてTangoを上回る優れた性能を示すことを観察しました。つまり、コントロール予測子は性能を損なわないという結果です。

実験には、TangoなどのベースラインやMustangoのバリアントとの比較を含み、提案されたデータ拡張手法がパフォーマンス向上にどれほど効果的であるかを示しています。スクラッチからトレーニングされたMustangoは、音質、リズムの存在、調和性などの面でTangoや他のバリアントを上回る最高のパフォーマンスを発揮しています。Mustangoは1.4Bのパラメータを持ち、Tangoよりもはるかに多いです。

総括すると、研究者たちはテキストから音楽への合成において、Mustangoが重要な進歩であると紹介しています。既存のシステムにおけるコントロール性のギャップに対処し、広範な実験によって提案手法の効果を示しています。Mustangoは最先端の音楽品質を実現するだけでなく、向上したコントロール性を提供し、この分野における貴重な貢献となっています。研究者たちは、テキストから音楽への合成に関する将来の研究のためのリソースとして、MusicBenchデータセットを公開しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

govGPT チャットボットによる市民体験の向上

この記事では、現在の市民体験に関連するいくつかの問題について議論し、LLMベースのチャットボットがその不備を解決できるこ...

AIニュース

「OpenAIやLM Studioに頼らずにAutoGenを使用する方法」

イントロダクション OpenAIやLMスタジオに頼らずに、あなた自身のAIチームを作成する準備はできていますか?もはや銀行を荒ら...

人工知能

スターバックスのコーヒー代で、自分自身のプライベートChatGPTモデルをトレーニングしよう

スターバックスのカップ1つ分と2時間の時間を費やすことで、自分の訓練済みのオープンソースの大規模モデルを所有することが...

データサイエンス

クラウドセキュリティの未来:トレンドと予測

この記事では、AIによる脅威検出、ゼロトラストアーキテクチャ、進化するサイバー脅威を含む、クラウドセキュリティのトレン...

AIニュース

『Q-Starを超えて OpenAIのPPOによるAGIのブレイクスルーが可能』

人工汎用知能(AGI)はAIの領域を魅了し、人間の能力を超えるシステムを象徴しています。OpenAIは重要なAGIの研究者であり、...

人工知能

PaLM 2を紹介します

2023年のGoogle I/Oで、GoogleはPaLM 2という新しい言語モデルを発表しましたこのモデルは、多言語、推論、およびコーディン...