マストゥゴにお会いしましょう:ディフュージョンに基づいた音楽ドメイン知識に触発されたテキストから音楽へのシステムですタンゴのテキストからオーディオへのモデルを拡張します

「マストゥゴに会いに行こう:音楽ドメインの知識に触発されたテキストから音楽へのシステム、タンゴのテキストからオーディオへのモデル拡張」

テキストから音楽への合成の領域では、生成されるコンテンツの品質は向上してきていますが、音楽的な側面の操作性は未開拓のままです。シンガポール工科大学とクイーンメアリー大学ロンドン校の研究者チームは、この課題に対する解決策であるMustangoというものを紹介しました。このソリューションは、一般的なテキストのキャプションだけでなく、和音、ビート、テンポ、キーに関連する具体的な指示を含むより豊かなキャプションを使用して生成された音楽を制御することを目指しています。

研究者たちは、マルチストアリーム散逸モデルベースの音楽ドメイン知識を活用したテキストから音楽への合成システムであるMustangoを紹介しています。彼らは、散逸モデルから直接音楽を生成する際のユニークな課題を強調し、条件付けテキストと音楽性のバランスをとる必要性を述べています。Mustangoにより、ミュージシャン、プロデューサー、サウンドデザイナーは、和音進行やテンポ、キーの選択などの特定の条件を持つ音楽クリップを作成することができます。

Mustangoの一部として、研究者たちは、音楽ドメイン知識をもとにしたUNetサブモジュールであるMuNetを提案しています。MuNetは、テキストのプロンプトから予測された音楽固有の特徴(和音、ビート、キー、テンポなど)を、散逸ノイズ除去プロセスに統合します。音楽とテキストキャプションが組み合わさったオープンデータセットの提供が限られているという制約に対応するため、研究者たちは新しいデータ拡張手法を導入しています。この手法では、音楽オーディオの調和、リズム、ダイナミックな要素を変化させ、音楽情報抽出の手法を使用して音楽特徴を抽出し、既存のテキスト説明に追加することで、MusicBenchデータセットを生成しています。

MusicBenchデータセットは、ビート、ダウンビートの位置、基礎となる和音進行、キー、テンポを持つ、元のテキスト説明を豊かにする52,000以上のインスタンスを含んでいます。研究者たちは、Mustangoが最先端の音楽の品質を達成していることを示す、幅広い実験を実施しています。また、複数のデータセットにおいて、和音、ビート、キー、テンポなどの望ましい条件を捉える能力においてMustangoのコントロール性能を重視し、プロンプトからコントロール文がないシナリオにおけるこれらの予測子の適応性を評価し、Mustangoがそのような場合においてTangoを上回る優れた性能を示すことを観察しました。つまり、コントロール予測子は性能を損なわないという結果です。

実験には、TangoなどのベースラインやMustangoのバリアントとの比較を含み、提案されたデータ拡張手法がパフォーマンス向上にどれほど効果的であるかを示しています。スクラッチからトレーニングされたMustangoは、音質、リズムの存在、調和性などの面でTangoや他のバリアントを上回る最高のパフォーマンスを発揮しています。Mustangoは1.4Bのパラメータを持ち、Tangoよりもはるかに多いです。

総括すると、研究者たちはテキストから音楽への合成において、Mustangoが重要な進歩であると紹介しています。既存のシステムにおけるコントロール性のギャップに対処し、広範な実験によって提案手法の効果を示しています。Mustangoは最先端の音楽品質を実現するだけでなく、向上したコントロール性を提供し、この分野における貴重な貢献となっています。研究者たちは、テキストから音楽への合成に関する将来の研究のためのリソースとして、MusicBenchデータセットを公開しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

あなたのLLMアプリケーションは公開に準備ができていますか?

大規模言語モデル(LLM)は、現代の自然言語処理アプリケーションにおいてパンとバターとなり、固有表現認識モデルなどのより...

AIニュース

OpenAIはGPT-3.5 Turboのファインチューニングによるカスタムパワーを解放します

人工知能の絶え間なく進化する世界で、OpenAIは革命的なアップデートを解放しました。それは、私たちが機械とどのようにイン...

機械学習

「ディープランゲージモデルは、コンテキストから次の単語を予測することを学ぶことで、ますます優れてきていますこれが本当に人間の脳が行っていることなのでしょうか?」

ディープラーニングは、テキスト生成、翻訳、および補完の分野で最近大きな進歩を遂げています。周囲の文脈から単語を予測す...

AIニュース

「明日のニュースを、今日に!」ニュースGPTが新しいAI技術の「ニュース予報」を紹介

NewsGPT.aiは再び革新の限界を押し広げました。世界初の24時間365日のAI生成ニュースチャンネルの成功的な立ち上げに続いて、...

機械学習

NVIDIA NeMoを使ったスタートアップが生成AIの成功ストーリーをスタートさせました

機械学習は、ワシーム・アルシークが大学の教科書を読み進めるのを助けました。現在、彼は生成型AIを活用し、数百の企業向け...

人工知能

あなたのAIカウンシルChatGPTプラグイン:専門家のアドバイスを受ける

「Your AI Council」のChatGPTプラグインに質問をすると、様々な専門家の視点から異なる見解が提供されます