「GETMusicに会ってください:統一された表現と拡散フレームワークで、統一された表現と拡散フレームワークを使用して任意の音楽トラックを生成できます」

GETMusic Generate any music track using a unified representation and diffusion framework.

近年、機械学習モデルを用いた音楽生成において、大きな進展がありました。しかし、結果に対する効率と実質的な制御を達成するためには、まだ課題が残っています。以前の試みでは、音楽表現とモデルアーキテクチャの限定により、困難に直面しました。

ソースとターゲットトラックの組み合わせは非常に多岐にわたるため、包括的なトラック生成タスクを処理し、望ましい結果を生み出すことができる統一されたモデルが必要です。現在の記号的な音楽生成の研究は、採用される音楽表現に基づいて2つのカテゴリに分類できます。これらは、シーケンスベースとイメージベースです。シーケンスベースのアプローチは、音楽を離散トークンのシーケンスとして表現します。一方、イメージベースのアプローチは、ピアノロールを理想的な選択肢として、音楽を2Dイメージとして表現します。ピアノロールは、音符を水平線として表し、垂直位置が音の高さ、線の長さが音の長さを表します。

任意のトラックを生成するための統一されたモデルの必要性に対応するため、中国の研究者チームは「GETMusic(GETはGEnerate music Tracksの略)」というフレームワークを開発しました。GETMusicは、入力を非常に理解し、トラックごとに音楽を生成することができます。このフレームワークでは、ユーザーはリズムを作成し、望ましいトラックに追加要素を追加することができます。このフレームワークは、ゼロから音楽を作成することができ、ガイド付きおよびミックストラックを生成することもできます。

GETMusicは、GETScoreと呼ばれる表現とGETDiffと呼ばれる離散拡散モデルを使用しています。GETScoreは、トラックを垂直に積み重ね、時間とともに水平に進行する2D構造でトラックを表します。研究者たちは、音楽の音符をピッチと長さのトークンで表現しました。GETDiffの役割は、トラックをランダムにターゲットまたはソースとして選択することです。GETDiffは、フォワードプロセスとデノイジングプロセスの2つのプロセスを行います。フォワードプロセスでは、GETDiffはトークンをマスキングして対象トラックを破損させ、ソーストラックは正しいグラウンドトゥルースとして保存します。一方、デノイジングプロセスでは、GETDiffは提供されたソースに基づいて、マスクされたターゲットトークンを予測することを学習します。

研究者たちは、この革新的なフレームワークが、スクラッチから始めるか、ユーザーが提供するソーストラックに基づいて望ましいターゲットトラックを生成するための明示的な制御を提供することを強調しています。さらに、GETScoreは、短いマルチトラックの音楽表現として優れた性能を発揮し、モデルの学習プロセスを効率化し、調和豊かな音楽の生成を可能にします。また、この表現で使用されるピッチトークンは、多音的な依存関係を効果的に保持し、調和豊かな音楽作品の創造を促進します。

トラックごとの生成能力に加えて、GETDiffの高度なマスクとデノイジングメカニズムにより、ゼロショットの埋め込みが可能になります。この注目すべき機能により、GETScore内の任意の位置でマスクされたトークンのシームレスなデノイジングが可能となり、創造性の限界を押し広げ、フレームワークの全体的な柔軟性を向上させることができます。

全体的に、GETMusicは多くの他の類似したモデルを上回る性能を発揮し、ターゲットトラックと提供されたソーストラックのメロディ、リズム、構造の一致に優れています。研究者たちは、このフレームワークの潜在能力を探索し、特に歌詞を追加トラックとして組み込むことに焦点を当てています。この統合により、印象的な歌詞からメロディを生成する能力が可能になり、モデルの柔軟性と表現力をさらに高めることを目指しています。テキストと音楽の要素をシームレスに組み合わせることで、新たな創造的な可能性が開かれ、全体的な音楽体験が向上します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「サリー大学の研究者が開発した新しいソフトウェアは、AIが実際にどれだけの情報を知っているかを検証することができます」

ここ数年、人工知能(AI)のドメインでいくつかの技術的なブレークスルーがあり、いくつかの産業やセクターに深い影響を与え...

機械学習

AudioPaLMの紹介:Googleの言語モデルにおける突破口

テック巨人Googleが、ジェネラティブAIの分野で重要な進展を遂げ、最先端のマルチモーダル言語モデルであるAudioPaLMを発表し...

機械学習

CLIP基礎モデル

この記事では、CLIP(対照的な言語画像事前学習)の背後にある論文を詳しく解説しますキーコンセプトを抽出し、わかりやすく...

AIニュース

「ビルドの学び方 — Towards AI コミュニティ ニュースレター第2号」

「最近の数日間、OpenAIのドラマを追っていないと見逃しているよ信じられないことが起こったんだ多くの従業員がOpenAIの理事...

人工知能

Pythonを使用したビデオ内の深さに配慮したオブジェクトの挿入

「コンピュータビジョンの分野では、動画における深度とカメラの位置推定の一貫性が、より高度な操作、例えば動画への深度認...

AI研究

サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります

オープン・ラジオ・アクセス・ネットワーク(O-RAN)は、分離されたラジオ・アクセス・ネットワーク(RAN)に知能を注入し、...