マストゥゴにお会いしましょう:ディフュージョンに基づいた音楽ドメイン知識に触発されたテキストから音楽へのシステムですタンゴのテキストからオーディオへのモデルを拡張します

「マストゥゴに会いに行こう:音楽ドメインの知識に触発されたテキストから音楽へのシステム、タンゴのテキストからオーディオへのモデル拡張」

テキストから音楽への合成の領域では、生成されるコンテンツの品質は向上してきていますが、音楽的な側面の操作性は未開拓のままです。シンガポール工科大学とクイーンメアリー大学ロンドン校の研究者チームは、この課題に対する解決策であるMustangoというものを紹介しました。このソリューションは、一般的なテキストのキャプションだけでなく、和音、ビート、テンポ、キーに関連する具体的な指示を含むより豊かなキャプションを使用して生成された音楽を制御することを目指しています。

研究者たちは、マルチストアリーム散逸モデルベースの音楽ドメイン知識を活用したテキストから音楽への合成システムであるMustangoを紹介しています。彼らは、散逸モデルから直接音楽を生成する際のユニークな課題を強調し、条件付けテキストと音楽性のバランスをとる必要性を述べています。Mustangoにより、ミュージシャン、プロデューサー、サウンドデザイナーは、和音進行やテンポ、キーの選択などの特定の条件を持つ音楽クリップを作成することができます。

Mustangoの一部として、研究者たちは、音楽ドメイン知識をもとにしたUNetサブモジュールであるMuNetを提案しています。MuNetは、テキストのプロンプトから予測された音楽固有の特徴(和音、ビート、キー、テンポなど)を、散逸ノイズ除去プロセスに統合します。音楽とテキストキャプションが組み合わさったオープンデータセットの提供が限られているという制約に対応するため、研究者たちは新しいデータ拡張手法を導入しています。この手法では、音楽オーディオの調和、リズム、ダイナミックな要素を変化させ、音楽情報抽出の手法を使用して音楽特徴を抽出し、既存のテキスト説明に追加することで、MusicBenchデータセットを生成しています。

MusicBenchデータセットは、ビート、ダウンビートの位置、基礎となる和音進行、キー、テンポを持つ、元のテキスト説明を豊かにする52,000以上のインスタンスを含んでいます。研究者たちは、Mustangoが最先端の音楽の品質を達成していることを示す、幅広い実験を実施しています。また、複数のデータセットにおいて、和音、ビート、キー、テンポなどの望ましい条件を捉える能力においてMustangoのコントロール性能を重視し、プロンプトからコントロール文がないシナリオにおけるこれらの予測子の適応性を評価し、Mustangoがそのような場合においてTangoを上回る優れた性能を示すことを観察しました。つまり、コントロール予測子は性能を損なわないという結果です。

実験には、TangoなどのベースラインやMustangoのバリアントとの比較を含み、提案されたデータ拡張手法がパフォーマンス向上にどれほど効果的であるかを示しています。スクラッチからトレーニングされたMustangoは、音質、リズムの存在、調和性などの面でTangoや他のバリアントを上回る最高のパフォーマンスを発揮しています。Mustangoは1.4Bのパラメータを持ち、Tangoよりもはるかに多いです。

総括すると、研究者たちはテキストから音楽への合成において、Mustangoが重要な進歩であると紹介しています。既存のシステムにおけるコントロール性のギャップに対処し、広範な実験によって提案手法の効果を示しています。Mustangoは最先端の音楽品質を実現するだけでなく、向上したコントロール性を提供し、この分野における貴重な貢献となっています。研究者たちは、テキストから音楽への合成に関する将来の研究のためのリソースとして、MusicBenchデータセットを公開しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「リアルタイムの高度な物体認識を備えたLego Technicソーターの構築」

「Nullspace Roboticsでのインターンシップ中、私は会社の能力を高めるプロジェクトに取り組む機会を得ました物体検出と機械...

データサイエンス

トロント大学の研究者が、大規模な材料データセットにおける驚くべき冗長性と、情報豊かなデータの機械学習パフォーマンスの向上における力を明らかにする

AIの登場と共に、その利用は私たちの生活のあらゆる分野で感じられるようになっています。AIはあらゆる生活領域での応用が見...

人工知能

「今日の市場においてAIパワードモバイルアプリが際立っているのは何か?」

AIはモバイルアプリを革命し、個人の経験を提供します最新技術を駆使したアプリ開発の利点、成功、そして将来を探求してください

人工知能

宇宙におけるAIの10の使用例

イントロダクション 何百年もの間、人々は夜空を見つめ、好奇心を抱いてきました。現在でもその興味は輝き続けています。宇宙...

人工知能

「ウェブ開発の未来:予測と可能性」

「ウェブ開発の未来を発見しましょう!AI、PWA、VRなどを探求しましょう可能性やウェブ開発者の役割についての洞察を得ましょ...

データサイエンス

「AIコントロールを手にして、サイバーセキュリティシステムに挑戦しましょう」

あなたの組織のデータは、サイバー犯罪者の悪意のある行為に対して免疫を持っていますか?そうでなければ、弱い防御システム...