「GETMusicに会ってください:統一された表現と拡散フレームワークで、統一された表現と拡散フレームワークを使用して任意の音楽トラックを生成できます」

GETMusic Generate any music track using a unified representation and diffusion framework.

近年、機械学習モデルを用いた音楽生成において、大きな進展がありました。しかし、結果に対する効率と実質的な制御を達成するためには、まだ課題が残っています。以前の試みでは、音楽表現とモデルアーキテクチャの限定により、困難に直面しました。

ソースとターゲットトラックの組み合わせは非常に多岐にわたるため、包括的なトラック生成タスクを処理し、望ましい結果を生み出すことができる統一されたモデルが必要です。現在の記号的な音楽生成の研究は、採用される音楽表現に基づいて2つのカテゴリに分類できます。これらは、シーケンスベースとイメージベースです。シーケンスベースのアプローチは、音楽を離散トークンのシーケンスとして表現します。一方、イメージベースのアプローチは、ピアノロールを理想的な選択肢として、音楽を2Dイメージとして表現します。ピアノロールは、音符を水平線として表し、垂直位置が音の高さ、線の長さが音の長さを表します。

任意のトラックを生成するための統一されたモデルの必要性に対応するため、中国の研究者チームは「GETMusic(GETはGEnerate music Tracksの略)」というフレームワークを開発しました。GETMusicは、入力を非常に理解し、トラックごとに音楽を生成することができます。このフレームワークでは、ユーザーはリズムを作成し、望ましいトラックに追加要素を追加することができます。このフレームワークは、ゼロから音楽を作成することができ、ガイド付きおよびミックストラックを生成することもできます。

GETMusicは、GETScoreと呼ばれる表現とGETDiffと呼ばれる離散拡散モデルを使用しています。GETScoreは、トラックを垂直に積み重ね、時間とともに水平に進行する2D構造でトラックを表します。研究者たちは、音楽の音符をピッチと長さのトークンで表現しました。GETDiffの役割は、トラックをランダムにターゲットまたはソースとして選択することです。GETDiffは、フォワードプロセスとデノイジングプロセスの2つのプロセスを行います。フォワードプロセスでは、GETDiffはトークンをマスキングして対象トラックを破損させ、ソーストラックは正しいグラウンドトゥルースとして保存します。一方、デノイジングプロセスでは、GETDiffは提供されたソースに基づいて、マスクされたターゲットトークンを予測することを学習します。

研究者たちは、この革新的なフレームワークが、スクラッチから始めるか、ユーザーが提供するソーストラックに基づいて望ましいターゲットトラックを生成するための明示的な制御を提供することを強調しています。さらに、GETScoreは、短いマルチトラックの音楽表現として優れた性能を発揮し、モデルの学習プロセスを効率化し、調和豊かな音楽の生成を可能にします。また、この表現で使用されるピッチトークンは、多音的な依存関係を効果的に保持し、調和豊かな音楽作品の創造を促進します。

トラックごとの生成能力に加えて、GETDiffの高度なマスクとデノイジングメカニズムにより、ゼロショットの埋め込みが可能になります。この注目すべき機能により、GETScore内の任意の位置でマスクされたトークンのシームレスなデノイジングが可能となり、創造性の限界を押し広げ、フレームワークの全体的な柔軟性を向上させることができます。

全体的に、GETMusicは多くの他の類似したモデルを上回る性能を発揮し、ターゲットトラックと提供されたソーストラックのメロディ、リズム、構造の一致に優れています。研究者たちは、このフレームワークの潜在能力を探索し、特に歌詞を追加トラックとして組み込むことに焦点を当てています。この統合により、印象的な歌詞からメロディを生成する能力が可能になり、モデルの柔軟性と表現力をさらに高めることを目指しています。テキストと音楽の要素をシームレスに組み合わせることで、新たな創造的な可能性が開かれ、全体的な音楽体験が向上します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

データから洞察へ:データ分析のための生成AIの活用

「生成AIはデータ分析を革新し、生成AIのデータ分析への影響を探求し、組織が情報に基づいた意思決定にデータを活用する方法...

人工知能

ChatGPTを使ってコーディングする方法' (ChatGPTをつかってコーディングするほうほう)

イントロダクション 人工知能を現代のプログラミングに取り入れることで、効率とイノベーションの新時代が到来しました。Open...

機械学習

このAI論文は、拡散モデル内のコンセプトニューロンを分析および識別するための、コーンと呼ばれる新しい勾配ベースの手法を提案しています

複雑な脳の構造により、驚くべき認知的および創造的なタスクを実行することができます。研究によると、人間の内側の側頭葉に...

機械学習

一緒にAIを学びましょう−Towards AIコミュニティニュースレター#5

おはようございます、AI愛好家の皆さん!今週のポッドキャストのエピソードは必聴で、これまでの24エピソードの中でも一番優...

データサイエンス

「LangChain、Activeloop、およびDeepInfraを使用したTwitterアルゴリズムのリバースエンジニアリングのためのプレーンな英語ガイド」

このガイドでは、Twitterの推奨アルゴリズムを逆解析して、コードベースをより理解し、より良いコンテンツを作成するための洞...

AIニュース

「ジェミニに会おう:チャットGPTに対するGoogleの答え」

人工知能の進化する世界において、Googleは最新作のGemini AIにより画期的な飛躍を遂げました。Googleによると、異なるサイズ...