イタリアの新しいAI研究は、音楽合成と音源分離の両方が可能な拡散ベースの生成モデルを紹介しています

Italian AI research introduces a diffusion-based generative model capable of both music synthesis and source separation.

人間は、音楽の作曲や合成、分析、つまり音源の分離など、複数の音源を同時に処理することができます。つまり、人間の脳は、混合物から個々の音源を分離し、逆に、複数の音源を結合して一貫した組み合わせを形成することができます。この知識を数学的に表現する際、研究者は音源の結合確率密度を使用します。たとえば、音楽の混合物は、個々の音源の積の形に因子分解できないような文脈を持っています。

現在、深層学習モデルは、多数の音源を一貫した混合物に合成し、混合物から個々の音源を分離することはできません。音楽の作曲や生成のタスクにおいては、モデルは直接的に混合物の分布を学習し、混合物のモデリングは正確になりますが、個々の音源に関する知識はすべて失われます。対照的に、音源分離のためのモデルは、各音源分布に対して単一のモデルを学習し、推論時には混合物に条件づけます。したがって、音源の相互依存関係に関する重要な詳細は失われます。どちらのシナリオでも、混合物の生成は困難です。

音源分離と音楽生成の両方を行う深層学習モデルの構築に向けた一歩を踏み出すため、ローマ大学のGLADIA研究室の研究者たちは、Multi-Source Diffusion Model(MSDM)を開発しました。このモデルは、文脈を共有する音源の結合確率密度(事前分布)を使用して訓練されます。生成タスクは事前分布を使用してサンプリングされ、分離タスクは事前分布を混合物に条件づけて得られる事後分布からサンプリングされます。このアプローチは、世界初のジェネレーションと分離の両方を実行できるモデルであるため、汎用オーディオモデルに向けた重要な第一歩です。

研究者たちは、実験にはSlakh2100データセットを使用しました。Slakh2100データセットは2100以上のトラックで構成されており、音源分離のための標準的なデータセットです。Slakh2100は、他の多音源データセットよりもデータ量が大幅に多いため、生成モデルの性能を確立するために重要です。このモデルの基盤は、音源の結合分布である事前分布の推定にあります。その後、事前分布を使用して推論時にさまざまなタスクが解決されます。ピアノトラックを補完するドラムなど、他の音源が与えられた場合に一部の音源を生成するソース補完などの部分的な推論タスクも、古典的な総合推論タスクと並行して行われます。

研究者たちは、事前を学習するためにスコアマッチングを使用した拡散ベースの生成モデルを使用しました。この手法は通常、「ノイズ除去スコアマッチング」として知られています。スコアマッチングの主なアイデアは、分布そのものではなく、ターゲット分布の「スコア」関数を近似することです。研究者たちが行ったもう1つの重要な追加は、ディラックデルタ関数に基づく新しいサンプリング方法を導入し、音源分離タスクで注目すべき結果を得ることです。

研究者たちは、分離、部分生成、総合生成のモデルの評価のためにいくつかのテストを実行しました。分離タスクでのモデルのパフォーマンスは、他の最先端の回帰モデルと同等でした。研究者たちはまた、現在利用可能なコンテキストデータの量がアルゴリズムのパフォーマンスを制限していると説明しました。チームは、混合物を事前に分離し、それらをデータセットとして使用して問題を解決することを検討しています。まとめると、GLADIA研究室によって提供される音楽領域の分離、総合、部分生成のためのMulti-Source Diffusion Modelは、革新的なパラダイムです。研究グループは、自身の業績が他の研究者による音楽領域のより詳細な研究を促進することを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

ランダムフォレストと欠損値

オンラインで見つかる過剰にクリーンされたデータセット以外に、欠損値はどこにでもあります実際、データセットが複雑で大き...

AI研究

メリーランド大学とMeta AIの研究者は、「OmnimatteRF」という新しいビデオマッティング手法を提案していますこの手法は、動的な2D前景レイヤーと3D背景モデルを組み合わせたものです

ビデオを複数のレイヤーに分割し、それぞれにアルファマットを持たせ、それらのレイヤーを元のビデオに再構成することは、「...

AI研究

「AIの画像をどのように保存すべきか?Googleの研究者がスコアベースの生成モデルを使用した画像圧縮方法を提案」

1年前、AIによるリアルな画像生成は夢でした。ほとんどの出力が3つの目や2つの鼻などを持つものであるにもかかわらず、実際の...

データサイエンス

「AIデータ統合とコンテンツベースのマッピングによる未来のナビゲーション」

この記事では、AIデータ統合とコンテンツベースのマッピングが企業がより良いデータ駆動型の未来を築くのにどのように役立つ...

データサイエンス

スケールにおける機械学習:モデルとデータの並列化

モデルがますます複雑になり、データセットが巨大になるにつれて、計算ワークロードを効率的に分散する方法の必要性はますま...