イタリアの新しいAI研究は、音楽合成と音源分離の両方が可能な拡散ベースの生成モデルを紹介しています

Italian AI research introduces a diffusion-based generative model capable of both music synthesis and source separation.

人間は、音楽の作曲や合成、分析、つまり音源の分離など、複数の音源を同時に処理することができます。つまり、人間の脳は、混合物から個々の音源を分離し、逆に、複数の音源を結合して一貫した組み合わせを形成することができます。この知識を数学的に表現する際、研究者は音源の結合確率密度を使用します。たとえば、音楽の混合物は、個々の音源の積の形に因子分解できないような文脈を持っています。

現在、深層学習モデルは、多数の音源を一貫した混合物に合成し、混合物から個々の音源を分離することはできません。音楽の作曲や生成のタスクにおいては、モデルは直接的に混合物の分布を学習し、混合物のモデリングは正確になりますが、個々の音源に関する知識はすべて失われます。対照的に、音源分離のためのモデルは、各音源分布に対して単一のモデルを学習し、推論時には混合物に条件づけます。したがって、音源の相互依存関係に関する重要な詳細は失われます。どちらのシナリオでも、混合物の生成は困難です。

音源分離と音楽生成の両方を行う深層学習モデルの構築に向けた一歩を踏み出すため、ローマ大学のGLADIA研究室の研究者たちは、Multi-Source Diffusion Model(MSDM)を開発しました。このモデルは、文脈を共有する音源の結合確率密度(事前分布)を使用して訓練されます。生成タスクは事前分布を使用してサンプリングされ、分離タスクは事前分布を混合物に条件づけて得られる事後分布からサンプリングされます。このアプローチは、世界初のジェネレーションと分離の両方を実行できるモデルであるため、汎用オーディオモデルに向けた重要な第一歩です。

研究者たちは、実験にはSlakh2100データセットを使用しました。Slakh2100データセットは2100以上のトラックで構成されており、音源分離のための標準的なデータセットです。Slakh2100は、他の多音源データセットよりもデータ量が大幅に多いため、生成モデルの性能を確立するために重要です。このモデルの基盤は、音源の結合分布である事前分布の推定にあります。その後、事前分布を使用して推論時にさまざまなタスクが解決されます。ピアノトラックを補完するドラムなど、他の音源が与えられた場合に一部の音源を生成するソース補完などの部分的な推論タスクも、古典的な総合推論タスクと並行して行われます。

研究者たちは、事前を学習するためにスコアマッチングを使用した拡散ベースの生成モデルを使用しました。この手法は通常、「ノイズ除去スコアマッチング」として知られています。スコアマッチングの主なアイデアは、分布そのものではなく、ターゲット分布の「スコア」関数を近似することです。研究者たちが行ったもう1つの重要な追加は、ディラックデルタ関数に基づく新しいサンプリング方法を導入し、音源分離タスクで注目すべき結果を得ることです。

研究者たちは、分離、部分生成、総合生成のモデルの評価のためにいくつかのテストを実行しました。分離タスクでのモデルのパフォーマンスは、他の最先端の回帰モデルと同等でした。研究者たちはまた、現在利用可能なコンテキストデータの量がアルゴリズムのパフォーマンスを制限していると説明しました。チームは、混合物を事前に分離し、それらをデータセットとして使用して問題を解決することを検討しています。まとめると、GLADIA研究室によって提供される音楽領域の分離、総合、部分生成のためのMulti-Source Diffusion Modelは、革新的なパラダイムです。研究グループは、自身の業績が他の研究者による音楽領域のより詳細な研究を促進することを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

インディアナ大学の研究者たちは、「Brainoware」という最先端の人工知能技術を発表しましたこの技術は、脳器官のようなオルガノイドとシリコンチップからインスピレーションを受けています

生物学の原理と技術革新の融合により、人工知能(AI)の著しい進歩が得られてきました。インディアナ大学ブルーミントン校の...

AI研究

GoogleのAI研究者がPic2Wordを紹介:ゼロショット合成画像検索(ZS-CIR)への新しいアプローチ

画像検索は、正確に表現しようとすると複雑なプロセスです。多くの研究者が、与えられた実際の画像からの最小の損失を確保す...

データサイエンス

MITの研究者たちは、スケーラブルな自己学習モデルを作成しました

科学者たちは、自然言語ベースの論理推論データセットを使用して、より大きなモデルよりも優れた性能を発揮する小さな言語モ...

データサイエンス

大規模言語モデル、ALBERT - 自己教示学習用のLite BERT

近年、大規模な言語モデルの進化は急速に進んでいますBERTは、高い精度でさまざまなNLPタスクを解決することができる最も人気...

AIニュース

「Amazon SageMaker JumpStartでのテキスト生成のために、Llama 2を微調整する」

「本日は、Amazon SageMaker JumpStartを使用して、MetaによってLlama 2モデルを微調整する機能を発表できることを喜んでお知...

AIニュース

高度なAIの約束とリスクについて、ジェフリー・ヒントンが語る

「2019年ACM A.M.チューリング賞の受賞者であるイギリスのコンピュータ科学者であるジェフリー・ヒントンは、進化した人工知...