イタリアの新しいAI研究は、音楽合成と音源分離の両方が可能な拡散ベースの生成モデルを紹介しています

Italian AI research introduces a diffusion-based generative model capable of both music synthesis and source separation.

人間は、音楽の作曲や合成、分析、つまり音源の分離など、複数の音源を同時に処理することができます。つまり、人間の脳は、混合物から個々の音源を分離し、逆に、複数の音源を結合して一貫した組み合わせを形成することができます。この知識を数学的に表現する際、研究者は音源の結合確率密度を使用します。たとえば、音楽の混合物は、個々の音源の積の形に因子分解できないような文脈を持っています。

現在、深層学習モデルは、多数の音源を一貫した混合物に合成し、混合物から個々の音源を分離することはできません。音楽の作曲や生成のタスクにおいては、モデルは直接的に混合物の分布を学習し、混合物のモデリングは正確になりますが、個々の音源に関する知識はすべて失われます。対照的に、音源分離のためのモデルは、各音源分布に対して単一のモデルを学習し、推論時には混合物に条件づけます。したがって、音源の相互依存関係に関する重要な詳細は失われます。どちらのシナリオでも、混合物の生成は困難です。

音源分離と音楽生成の両方を行う深層学習モデルの構築に向けた一歩を踏み出すため、ローマ大学のGLADIA研究室の研究者たちは、Multi-Source Diffusion Model(MSDM)を開発しました。このモデルは、文脈を共有する音源の結合確率密度(事前分布)を使用して訓練されます。生成タスクは事前分布を使用してサンプリングされ、分離タスクは事前分布を混合物に条件づけて得られる事後分布からサンプリングされます。このアプローチは、世界初のジェネレーションと分離の両方を実行できるモデルであるため、汎用オーディオモデルに向けた重要な第一歩です。

研究者たちは、実験にはSlakh2100データセットを使用しました。Slakh2100データセットは2100以上のトラックで構成されており、音源分離のための標準的なデータセットです。Slakh2100は、他の多音源データセットよりもデータ量が大幅に多いため、生成モデルの性能を確立するために重要です。このモデルの基盤は、音源の結合分布である事前分布の推定にあります。その後、事前分布を使用して推論時にさまざまなタスクが解決されます。ピアノトラックを補完するドラムなど、他の音源が与えられた場合に一部の音源を生成するソース補完などの部分的な推論タスクも、古典的な総合推論タスクと並行して行われます。

研究者たちは、事前を学習するためにスコアマッチングを使用した拡散ベースの生成モデルを使用しました。この手法は通常、「ノイズ除去スコアマッチング」として知られています。スコアマッチングの主なアイデアは、分布そのものではなく、ターゲット分布の「スコア」関数を近似することです。研究者たちが行ったもう1つの重要な追加は、ディラックデルタ関数に基づく新しいサンプリング方法を導入し、音源分離タスクで注目すべき結果を得ることです。

研究者たちは、分離、部分生成、総合生成のモデルの評価のためにいくつかのテストを実行しました。分離タスクでのモデルのパフォーマンスは、他の最先端の回帰モデルと同等でした。研究者たちはまた、現在利用可能なコンテキストデータの量がアルゴリズムのパフォーマンスを制限していると説明しました。チームは、混合物を事前に分離し、それらをデータセットとして使用して問題を解決することを検討しています。まとめると、GLADIA研究室によって提供される音楽領域の分離、総合、部分生成のためのMulti-Source Diffusion Modelは、革新的なパラダイムです。研究グループは、自身の業績が他の研究者による音楽領域のより詳細な研究を促進することを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「ChatGPTとAIでお金を稼ぐ3つの方法」

ジェネラティブAIを活用して収入を増やすために、これらの簡単な手順に従ってください

AI研究

「UTオースティンの研究者が、LIBEROを導入:意思決定とロボット工学における知識移転を研究するためのライフロング・ロボット・ラーニング・ベンチマーク」

LIBEROは、宣言的および手続き的なドメインでの知識の転送に焦点を当てた、ロボット操作におけるライフロングラーニングの基...

コンピュータサイエンス

「Zoomのプライバシーの微調整が、通話内容がAIのトレーニングに使用されることへの懸念を引き起こしている」という文になります

Zoomはまた、「規則で説明されている使用方法に関わらず」、AIを訓練するために「音声、ビデオ、またはチャットの顧客コンテ...

データサイエンス

NumpyとPandasを超えて:知られざるPythonライブラリの潜在能力の解放

Pythonでのデータ操作と計算について話すとき、一般的にはPandasとNumpyを思い浮かべます他にも3つの強力なライブラリを見つ...

AI研究

バージニア工科大学とマイクロソフトの研究者がアイデアの探求と推論の能力を高めるAIアプローチ、アルゴリズムオブソウツを紹介

大規模言語モデル(LLM)は最近進歩を遂げ、その有用性がさまざまな問題解決活動についての認識を高めています。これらのモデ...

機械学習

Amazon Lexの新しい生成AI機能で、セルフサービスアシスタントを向上させましょう

この投稿では、生成AIが会話型AI業界を変えて、新しい顧客とボットビルダーの体験を提供し、これらの進歩を活用するアマゾン...