「GETMusicに会ってください:統一された表現と拡散フレームワークで、統一された表現と拡散フレームワークを使用して任意の音楽トラックを生成できます」

GETMusic Generate any music track using a unified representation and diffusion framework.

近年、機械学習モデルを用いた音楽生成において、大きな進展がありました。しかし、結果に対する効率と実質的な制御を達成するためには、まだ課題が残っています。以前の試みでは、音楽表現とモデルアーキテクチャの限定により、困難に直面しました。

ソースとターゲットトラックの組み合わせは非常に多岐にわたるため、包括的なトラック生成タスクを処理し、望ましい結果を生み出すことができる統一されたモデルが必要です。現在の記号的な音楽生成の研究は、採用される音楽表現に基づいて2つのカテゴリに分類できます。これらは、シーケンスベースとイメージベースです。シーケンスベースのアプローチは、音楽を離散トークンのシーケンスとして表現します。一方、イメージベースのアプローチは、ピアノロールを理想的な選択肢として、音楽を2Dイメージとして表現します。ピアノロールは、音符を水平線として表し、垂直位置が音の高さ、線の長さが音の長さを表します。

任意のトラックを生成するための統一されたモデルの必要性に対応するため、中国の研究者チームは「GETMusic(GETはGEnerate music Tracksの略)」というフレームワークを開発しました。GETMusicは、入力を非常に理解し、トラックごとに音楽を生成することができます。このフレームワークでは、ユーザーはリズムを作成し、望ましいトラックに追加要素を追加することができます。このフレームワークは、ゼロから音楽を作成することができ、ガイド付きおよびミックストラックを生成することもできます。

GETMusicは、GETScoreと呼ばれる表現とGETDiffと呼ばれる離散拡散モデルを使用しています。GETScoreは、トラックを垂直に積み重ね、時間とともに水平に進行する2D構造でトラックを表します。研究者たちは、音楽の音符をピッチと長さのトークンで表現しました。GETDiffの役割は、トラックをランダムにターゲットまたはソースとして選択することです。GETDiffは、フォワードプロセスとデノイジングプロセスの2つのプロセスを行います。フォワードプロセスでは、GETDiffはトークンをマスキングして対象トラックを破損させ、ソーストラックは正しいグラウンドトゥルースとして保存します。一方、デノイジングプロセスでは、GETDiffは提供されたソースに基づいて、マスクされたターゲットトークンを予測することを学習します。

研究者たちは、この革新的なフレームワークが、スクラッチから始めるか、ユーザーが提供するソーストラックに基づいて望ましいターゲットトラックを生成するための明示的な制御を提供することを強調しています。さらに、GETScoreは、短いマルチトラックの音楽表現として優れた性能を発揮し、モデルの学習プロセスを効率化し、調和豊かな音楽の生成を可能にします。また、この表現で使用されるピッチトークンは、多音的な依存関係を効果的に保持し、調和豊かな音楽作品の創造を促進します。

トラックごとの生成能力に加えて、GETDiffの高度なマスクとデノイジングメカニズムにより、ゼロショットの埋め込みが可能になります。この注目すべき機能により、GETScore内の任意の位置でマスクされたトークンのシームレスなデノイジングが可能となり、創造性の限界を押し広げ、フレームワークの全体的な柔軟性を向上させることができます。

全体的に、GETMusicは多くの他の類似したモデルを上回る性能を発揮し、ターゲットトラックと提供されたソーストラックのメロディ、リズム、構造の一致に優れています。研究者たちは、このフレームワークの潜在能力を探索し、特に歌詞を追加トラックとして組み込むことに焦点を当てています。この統合により、印象的な歌詞からメロディを生成する能力が可能になり、モデルの柔軟性と表現力をさらに高めることを目指しています。テキストと音楽の要素をシームレスに組み合わせることで、新たな創造的な可能性が開かれ、全体的な音楽体験が向上します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

生成AIのアシストを使用して複雑なSQLクエリを作成する

イントロダクション ChatGPTの登場は、AIの歴史において前例のない瞬間を迎えました。ChatGPTや他の多くの生成型AIツールは、...

データサイエンス

デット (物体検出用トランスフォーマー)

注意:この記事は、コンピュータビジョンの複雑な世界について探求し、特にトランスフォーマーとアテンションメカニズムに焦...

データサイエンス

AI増強ソフトウェアエンジニアリング:知っておくべきすべてのこと

この包括的なガイドで、AIを活用したソフトウェアエンジニアリングの急速に成長する分野について学び、どのようにソフトウェ...

データサイエンス

「AI言語モデルにおける迅速なエンジニアリングのマスタリング」

これらのモデルに与えられた指示を洗練し最適化することにより、より正確で文脈に即した回答を得ることができます

機械学習

安定した拡散 コミュニティのAI

「ステーブルディフュージョンAIは、革新的な技術により芸術界を革命化し、創造性を高め、芸術の評価を変えています」

AIニュース

気候変動との戦いをリードする6人の女性

「私たちは気候科学の先駆者であるユニス・ニュートン・フートと、より持続可能な未来を築く6人の女性主導のGoogle.orgの助成...