イタリアの新しいAI研究は、音楽合成と音源分離の両方が可能な拡散ベースの生成モデルを紹介しています

Italian AI research introduces a diffusion-based generative model capable of both music synthesis and source separation.

人間は、音楽の作曲や合成、分析、つまり音源の分離など、複数の音源を同時に処理することができます。つまり、人間の脳は、混合物から個々の音源を分離し、逆に、複数の音源を結合して一貫した組み合わせを形成することができます。この知識を数学的に表現する際、研究者は音源の結合確率密度を使用します。たとえば、音楽の混合物は、個々の音源の積の形に因子分解できないような文脈を持っています。

現在、深層学習モデルは、多数の音源を一貫した混合物に合成し、混合物から個々の音源を分離することはできません。音楽の作曲や生成のタスクにおいては、モデルは直接的に混合物の分布を学習し、混合物のモデリングは正確になりますが、個々の音源に関する知識はすべて失われます。対照的に、音源分離のためのモデルは、各音源分布に対して単一のモデルを学習し、推論時には混合物に条件づけます。したがって、音源の相互依存関係に関する重要な詳細は失われます。どちらのシナリオでも、混合物の生成は困難です。

音源分離と音楽生成の両方を行う深層学習モデルの構築に向けた一歩を踏み出すため、ローマ大学のGLADIA研究室の研究者たちは、Multi-Source Diffusion Model(MSDM)を開発しました。このモデルは、文脈を共有する音源の結合確率密度(事前分布)を使用して訓練されます。生成タスクは事前分布を使用してサンプリングされ、分離タスクは事前分布を混合物に条件づけて得られる事後分布からサンプリングされます。このアプローチは、世界初のジェネレーションと分離の両方を実行できるモデルであるため、汎用オーディオモデルに向けた重要な第一歩です。

研究者たちは、実験にはSlakh2100データセットを使用しました。Slakh2100データセットは2100以上のトラックで構成されており、音源分離のための標準的なデータセットです。Slakh2100は、他の多音源データセットよりもデータ量が大幅に多いため、生成モデルの性能を確立するために重要です。このモデルの基盤は、音源の結合分布である事前分布の推定にあります。その後、事前分布を使用して推論時にさまざまなタスクが解決されます。ピアノトラックを補完するドラムなど、他の音源が与えられた場合に一部の音源を生成するソース補完などの部分的な推論タスクも、古典的な総合推論タスクと並行して行われます。

研究者たちは、事前を学習するためにスコアマッチングを使用した拡散ベースの生成モデルを使用しました。この手法は通常、「ノイズ除去スコアマッチング」として知られています。スコアマッチングの主なアイデアは、分布そのものではなく、ターゲット分布の「スコア」関数を近似することです。研究者たちが行ったもう1つの重要な追加は、ディラックデルタ関数に基づく新しいサンプリング方法を導入し、音源分離タスクで注目すべき結果を得ることです。

研究者たちは、分離、部分生成、総合生成のモデルの評価のためにいくつかのテストを実行しました。分離タスクでのモデルのパフォーマンスは、他の最先端の回帰モデルと同等でした。研究者たちはまた、現在利用可能なコンテキストデータの量がアルゴリズムのパフォーマンスを制限していると説明しました。チームは、混合物を事前に分離し、それらをデータセットとして使用して問題を解決することを検討しています。まとめると、GLADIA研究室によって提供される音楽領域の分離、総合、部分生成のためのMulti-Source Diffusion Modelは、革新的なパラダイムです。研究グループは、自身の業績が他の研究者による音楽領域のより詳細な研究を促進することを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

DISC-FinLLMとは、複数の専門家のファインチューニングに基づいた中国の金融大規模言語モデル(LLM)です

“` 人工知能の分野で最大の進歩は、大規模言語モデル(LLM)の導入です。これらの自然言語処理(NLP)ベースのモデルは...

コンピュータサイエンス

「巨大なコンピュータチップによって駆動されるA.I.スーパーコンピュータが稼働し始める」

新しいスーパーコンピュータは、シリコンバレーのスタートアップ企業Cerebrasによって作られ、A.I.ブームに伴うチップと計算...

機械学習

チューリングテスト、中国の部屋、そして大規模言語モデル

チューリングテストは、AIの分野での古典的なアイデアですもともとは模倣ゲームと呼ばれ、アラン・チューリングは1950年に自...

データサイエンス

「リコメンデーションシステムにおける2つのタワーネットワークとネガティブサンプリング」

現在の推薦システムにおける最も重要なモデルの一つは、2つのタワーニューラルネットワークですこのモデルは次のような構造を...

AIニュース

「全てのOECDおよびG20加盟国において、インドがAIスキルと人材で1位にランクされました」

技術の絶え間ない進化の中で、一つのスキルが輝く存在となりました。それが人工知能(AI)です。インドはその膨大な技術労働...

データサイエンス

逆戻り、個人化、そしてKaggle症候群

最近、私はKaggleのBlack Friday Predictionデータセットを使用した予測のケーススタディに取り組みましたこのデータセットは...