MetaのAIが参照メロディに基づいて音楽を生成する方法

Method for generating music by Meta's AI based on reference melody.

MusicGen、分析される

Image by author.

MetaによるMusicGen

2023年6月13日、Meta(旧Facebook)は、ライセンスされた音楽データをトレーニングデータとして使用し、非商用利用のためにオープンソース化された彼らの生成音楽モデルMusicGenのリリースにより、音楽とAIコミュニティで話題を呼びました。このモデルは、今年早くもリリースされたGoogleのMusicLMを超える機能を持っています。

つまり、研究論文を読んだり、デモを聴いたりするだけでなく、GitHubからコードをコピーしたり、HuggingFaceのWebアプリでモデルを試したりすることができます。

テキストプロンプトからオーディオを生成するだけでなく、MusicGenは既存のメロディに基づいて音楽を生成することもできます。これは、メロディコンディショニングとして知られる機能です。このブログ記事では、Metaがこの有用で魅力的な機能をモデルに実装した方法を示します。しかし、それに入る前に、メロディコンディショニングが実際にどのように動作するかを理解しましょう。

ショーケース

ベーストラック

以下は、この記事のために製作した短いエレクトロニックミュージックのフレーズです。エレクトロニックドラム、2つの主要な808ベース、2つの切れ味のあるシンセサイザーが特徴です。これを聴くとき、トラックの「メインメロディ」を特定してみてください。

MusicGenを使用すると、同じメインメロディに沿った他のジャンルの音楽を生成することができます。そのために必要なのは、ベーストラックと、新しいピースのサウンドを説明するテキストプロンプトだけです。

オーケストラバリアント

英雄的な戦いにふさわしいシネマティックな雰囲気を作り出す、轟音パーカッション、壮大なブラスファンファーレ、そして高々と舞い上がるストリングスのグランドオーケストラアレンジ。

レゲエバリアント

エレクトリックギターソロをフィーチャーしたクラシックなレゲエトラック

ジャズバリアント

サックスソロ、ピアノコード、スネアフルドラムをフィーチャーしたスムーズなジャズ

結果はどれほど良いですか?

MusicGenはテキストプロンプトに厳密に従わないため、要求したものとは若干異なる音楽を生成しますが、生成されたピースは要求されたジャンルを正確に反映しており、さらに重要なことに、それぞれのピースはベーストラックのメインメロディの独自の解釈を示しています。

結果は完璧ではありませんが、このモデルの機能にはかなり感銘を受けます。リリース以来、MusicGenはHuggingFaceで最も人気のあるモデルの1つであったことも、その重要性を強調しています。しかし、メロディコンディショニングがどのように機能するかの技術的な側面に深く入りましょう。

テキストから音楽モデルがトレーニングされる方法

Three text-music pairs as they are used for training models like MusicLM or MusicGen. Image by author.

現在のほとんどの生成音楽モデルは、トレーニング中に同じ手順に従います。音楽トラックの大規模なデータベースが提供され、それに対応するテキストの説明が付けられます。モデルは、単語とサウンドの関係、および与えられたテキストプロンプトを一貫した楽曲に変換する方法を学習します。トレーニングプロセス中、モデルは、データセット内の実際の音楽トラックと比較して、自己の作曲を最適化します。これにより、モデルは自分の強みや改善が必要な領域を特定できます。

問題は、テキストから音楽を生成するなど、特定のタスクに特化した機械学習モデルが、その特定のタスクに限定されるということです。MusicGenが明示的にトレーニングされていないタスクを実行することができるようにすることは可能です(例えば、与えられた音楽の続きを生成するなど)、しかし、別のモデルをトレーニングしてこの機能を実装する必要があります。これは、トースターにジャガイモを投げ込んでフライドポテトが出てくることを期待するのと同じです。

トレーニングレシピの単純な調整

Metaがモデルトレーニング手順を適応して、MusicGenがテキストプロンプトに基づいて与えられた旋律のバリエーションを生成できるようにした方法を探りましょう。しかし、このアプローチにはいくつかの課題があります。主な障害の1つは、歌の「旋律」を識別し、計算的に有意義な方法で表現することの曖昧さです。それでも、新しいトレーニング手順をより広範囲に理解するために、何が「旋律」を構成するか、どのように容易に抽出しモデルにフィードするかの合意があると仮定しましょう。このシナリオでは、調整されたトレーニング方法は以下のように概説できます:

Three text-music-melody pairs as they were used for teaching MusicGen melody-conditioned generation.

データベース内の各トラックについて、まず最初にその旋律を抽出します。その後、モデルにトラックのテキスト説明とそれに対応する旋律の両方をフィードし、モデルに元のトラックを再作成するように促します。基本的に、このアプローチは元のトレーニング目標を単純化します。元のトレーニング目標は、モデルがテキストに基づいてトラックを再作成することだけでした。

なぜこれを行うのかを理解するために、このトレーニング手順でAIモデルが学習する内容について考えてみましょう。本質的には、メロディがテキストの説明に基づいてどのように音楽の完全な曲に変えられるかを学びます。これは、トレーニング中何度も成功裏に達成された「半盲目」生成タスクと同じです。

Metaがモデルに教えた旋律条件付き音楽生成の技術を把握した後、次に「旋律」を正確に定義するという課題に取り組む必要があります。

「旋律」とは何ですか?

真実は、ポリフォニックな楽曲の「旋律」を決定または抽出するための客観的な方法はなく、すべての楽器がユニゾンで演奏される場合を除いてです。しばしば声、ギター、バイオリンなどの突出した楽器がある場合がありますが、他の楽器が「旋律」の一部でないとは限りません。例えば、Queenの「Bohemian Rhapsody」を考えてみましょう。この曲を思い浮かべるとき、最初にFreddie Mercuryのメインボーカルメロディーを思い出すかもしれません。しかし、それはイントロのピアノ、中間部分のバックグラウンドシンガー、そして「So you think you can stone me […]」の前のエレクトリックギターが「旋律」の一部でないということを意味するわけではありません。

曲の「旋律」を抽出するための1つの方法は、最も突出した旋律を最も優勢なものとして考えることです。これは通常、ミックスで最も大きな音を出している旋律として識別されるものです。クロマグラムは、トラック全体で最も優勢な音符を視覚的に表示する広く使用されている表現方法です。以下は、最初は完全な楽器構成で、次にドラムとベースを除いたトラックのクロマグラムが示されています。左側には、旋律の最も関連する音符(B、F#、G)が青で強調表示されています。

両方のクロマグラムは、主要な旋律の音符を正確に描写しており、ドラムとベースを除いたトラックのバージョンは、旋律をより明確に視覚化しています。Metaの研究でも、同じ観察結果が得られ、彼らは彼らのソース分離ツール(DEMUCS)を使用して、トラックから妨害的なリズム要素を除去しました。このプロセスにより、「旋律」の十分に代表的な演奏が得られ、モデルにフィードすることができます。

まとめると、MusicGenに旋律条件付き生成を実行するときの基礎となるプロセスを理解するために、以下のワークフローのビジュアル表現があります:

How MusicGen produces a melody-conditioned music output. Image by author.

制限事項

UnsplashのXavier von Erlachによる写真

MusicGenは、メロディ指向の進展を示す有望な技術ですが、まだ進化途中であることを認識することが重要です。ドラムとベースが除かれた場合でも、クロマグラムはトラックのメロディの不完全な表現を提供します。一つの制限は、クロマグラムがすべての音符を12の西洋音階クラスに分類することで、2つのピッチクラスの間の移行を捉えますが、メロディの方向(上昇または下降)を捉えないことです。

例えば、C4からG4へ移動するメロディックな間隔(完全5度)は、C4からG3へ移動する場合(完全4度)とは大きく異なります。しかし、クロマグラムでは、両方の間隔が同じように表示されます。オクターブジャンプがある場合、クロマグラムはメロディが同じ音符にとどまったと示すことになります。Céline Dionが「My Heart Will Go On」の「wher-e-ver you are」で行った感情的なオクターブジャンプを、クロマグラムが安定したメロディの動きとして誤解することを考えてみてください。これを示すために、以下にA-haの「Take on Me」のコーラスのクロマグラムを見てください。これはあなたの曲のメロディに対する考え方を反映していますか?

「Take on Me」(A-ha)のコーラスのクロマグラム、ベースとドラムが除かれています。著者の画像。

もう一つの課題は、クロマグラムの固有のバイアスです。ある曲のメロディをキャプチャするのにクロマグラムが優れている一方で、他の曲では完全に外れてしまうことがあります。このバイアスはランダムではなく、系統的です。支配的なメロディ、最小限の間隔ジャンプ、そして単音演奏がある曲は、複雑なメロディが複数の楽器にまたがり、大きな間隔ジャンプを特徴とする曲に比べて、クロマグラムでよりよく表現されます。

さらに、生成AIモデル自体の制限についても言及する価値があります。出力オーディオはまだ人間による音楽とは明らかに異なり、6秒間の間に一貫したスタイルを維持することは依然として難しいです。さらに、MusicGenは、前述の例に示されるように、テキストプロンプトのより複雑な側面を忠実にキャプチャすることに欠けています。楽しんだりインスピレーションを得たりするだけでなく、エンドユーザーフレンドリーな音楽を生成するためには、さらなる技術の進歩が必要です。

将来の展望

UnsplashのMarc Sendra Martorellによる写真

どのようにしてAIを改善できるか?

私の視点から、将来の研究でメロディ指向の音楽生成に関して取り組むべき主要な懸念の一つは、トラックから「メロディ」を抽出して表現することです。クロマグラムはよく知られたシンプルな信号処理手法ですが、この目的には深層学習を利用する新しい実験的な手法が数多く存在します。Reddyらによる総合的な72ページのレビューでカバーされている多くの進歩からインスピレーションを得るMetaのような企業がこれらの進歩を期待できます。

モデル自体の品質に関しては、オーディオ品質とテキスト入力の理解力の両方が、モデルとトレーニングデータのサイズの拡大、およびこの特定のタスクのためのより効率的なアルゴリズムの開発によって向上する可能性があります。私の意見では、2023年1月にMusicLMがリリースされたことは「GPT-2の瞬間」に似ています。これらのモデルの可能性を目の当たりにしているのは始めに過ぎず、様々な側面で重要な改善が必要です。この類推が正しい場合、GPT-3に似た音楽生成モデルのリリースが予想よりも早く行われることが期待されます。

これがミュージシャンにどのような影響を与えるか?

生成音楽AIには、しばしば音楽クリエイターの仕事や生計に悪影響を与える懸念が生じます。将来的には、既存のメロディのバリエーションを作成することで生計を立てることがますます困難になることが予想されます。これは、企業が新しい広告キャンペーンやパーソナライズされた広告のために、特徴的なジングルメロディの多数のバリエーションを簡単に生成できる場合などのシナリオで特に明らかです。間違いなく、このような活動を重要な収入源としているミュージシャンにとっては脅威となります。客観的な音楽的特性に価値がある音楽を制作するクリエイターが、将来に備えて代替収入源を探ることを強く求めます。

メロディによる音楽生成のポジティブな側面として、人間の創造性を向上させるための信じられないほどのツールが提供されます。魅力的で記憶に残るメロディを開発した場合、さまざまなジャンルでどのように聞こえるかの例をすぐに生成できます。このプロセスにより、音楽を生み出すための理想的なジャンルやスタイルを特定することができます。さらに、自分の音楽カタログ内の過去のプロジェクトを再訪して、異なるジャンルやスタイルに翻訳した場合の潜在的な可能性を探索する機会が提供されます。最後に、この技術により、正式な音楽のトレーニングを受けていない創造性の高い個人が業界に参入するためのエントリーバリアが下がります。誰でもメロディを考え出し、スマートフォンのマイクにハミングを録音し、友人、家族、またはより広い観客に自分のアイデアの注目すべきアレンジを共有できるようになりました。

AI音楽生成が私たちの社会に有益なのかという問題は、未解決のままです。ただし、私はメロディによる音楽生成が、プロの創造的な人々だけでなく、新進気鋭の創造的な人々の作品を本当に向上させるこの技術の使用例の1つであると確信しています。それは、新しい探求の道を提供することで価値を追加します。私は近い将来、この分野でさらなる進歩を見ることを熱望しています。

音楽とAIの交差点に魅了されている場合は、このトピックに関する私の他の記事もお楽しみいただけます:

  1. Googleが偽のデータセットを使用して生成音楽AIをトレーニングした方法
  2. チャットボットが音楽検索を破壊しようとしている
  3. MusicLM – GoogleがAI音楽生成を解決したのか?

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more