「GETMusicに会ってください:統一された表現と拡散フレームワークで、統一された表現と拡散フレームワークを使用して任意の音楽トラックを生成できます」

GETMusic Generate any music track using a unified representation and diffusion framework.

近年、機械学習モデルを用いた音楽生成において、大きな進展がありました。しかし、結果に対する効率と実質的な制御を達成するためには、まだ課題が残っています。以前の試みでは、音楽表現とモデルアーキテクチャの限定により、困難に直面しました。

ソースとターゲットトラックの組み合わせは非常に多岐にわたるため、包括的なトラック生成タスクを処理し、望ましい結果を生み出すことができる統一されたモデルが必要です。現在の記号的な音楽生成の研究は、採用される音楽表現に基づいて2つのカテゴリに分類できます。これらは、シーケンスベースとイメージベースです。シーケンスベースのアプローチは、音楽を離散トークンのシーケンスとして表現します。一方、イメージベースのアプローチは、ピアノロールを理想的な選択肢として、音楽を2Dイメージとして表現します。ピアノロールは、音符を水平線として表し、垂直位置が音の高さ、線の長さが音の長さを表します。

任意のトラックを生成するための統一されたモデルの必要性に対応するため、中国の研究者チームは「GETMusic(GETはGEnerate music Tracksの略)」というフレームワークを開発しました。GETMusicは、入力を非常に理解し、トラックごとに音楽を生成することができます。このフレームワークでは、ユーザーはリズムを作成し、望ましいトラックに追加要素を追加することができます。このフレームワークは、ゼロから音楽を作成することができ、ガイド付きおよびミックストラックを生成することもできます。

GETMusicは、GETScoreと呼ばれる表現とGETDiffと呼ばれる離散拡散モデルを使用しています。GETScoreは、トラックを垂直に積み重ね、時間とともに水平に進行する2D構造でトラックを表します。研究者たちは、音楽の音符をピッチと長さのトークンで表現しました。GETDiffの役割は、トラックをランダムにターゲットまたはソースとして選択することです。GETDiffは、フォワードプロセスとデノイジングプロセスの2つのプロセスを行います。フォワードプロセスでは、GETDiffはトークンをマスキングして対象トラックを破損させ、ソーストラックは正しいグラウンドトゥルースとして保存します。一方、デノイジングプロセスでは、GETDiffは提供されたソースに基づいて、マスクされたターゲットトークンを予測することを学習します。

研究者たちは、この革新的なフレームワークが、スクラッチから始めるか、ユーザーが提供するソーストラックに基づいて望ましいターゲットトラックを生成するための明示的な制御を提供することを強調しています。さらに、GETScoreは、短いマルチトラックの音楽表現として優れた性能を発揮し、モデルの学習プロセスを効率化し、調和豊かな音楽の生成を可能にします。また、この表現で使用されるピッチトークンは、多音的な依存関係を効果的に保持し、調和豊かな音楽作品の創造を促進します。

トラックごとの生成能力に加えて、GETDiffの高度なマスクとデノイジングメカニズムにより、ゼロショットの埋め込みが可能になります。この注目すべき機能により、GETScore内の任意の位置でマスクされたトークンのシームレスなデノイジングが可能となり、創造性の限界を押し広げ、フレームワークの全体的な柔軟性を向上させることができます。

全体的に、GETMusicは多くの他の類似したモデルを上回る性能を発揮し、ターゲットトラックと提供されたソーストラックのメロディ、リズム、構造の一致に優れています。研究者たちは、このフレームワークの潜在能力を探索し、特に歌詞を追加トラックとして組み込むことに焦点を当てています。この統合により、印象的な歌詞からメロディを生成する能力が可能になり、モデルの柔軟性と表現力をさらに高めることを目指しています。テキストと音楽の要素をシームレスに組み合わせることで、新たな創造的な可能性が開かれ、全体的な音楽体験が向上します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIがキーストロークを聞く:新たなデータセキュリティの脅威」

ロンドン大学、ダラム大学、サリー大学の研究者によって開発された画期的なAIシステムは、データセキュリティの懸念を新たな...

AIニュース

既存のLLMプロジェクトをLangChainを使用するように適応する

おめでとうございます!素晴らしいLLMの概念証明が完成しましたね自信を持って世界に披露できます!もしかしたら、OpenAIライ...

機械学習

一緒にAIを学ぶ - Towards AI コミュニティニュースレター第4号

おはようございます、AI愛好者の皆さん! 今号では、Activeloopと共同で取り組んでいる大規模な言語モデル(LLM)のパフォー...

機械学習

AIがYouTubeの多言語吹替を開始します

世界最大の動画共有プラットフォームであるYouTubeは、AI技術の統合により、コンテンツクリエイターが世界中の観客と接触する...

データサイエンス

データ汚染とモデル崩壊:迫りくるAIの災害

AI生成コンテンツの存在は、疫病のように広がり、検索結果を毒し、さらにAIモデルを崩壊させるでしょう

機械学習

「深層学習を用いた深層オブジェクト:ZoeDepthはマルチドメインの深度推定のためのAIモデルです」

画像に子供が大人よりも高くて大きく見える錯覚に出くわしたことはありますか?エームスの部屋の錯視は、台形の形状をした部...