MusicGenを再構築:MetaのAI音楽における地下進化

MusicGen再構築:MetaのAI音楽におけるアンダーグラウンドな進化

音楽ジェンの見逃されがちだが注目すべき進展を探る

音楽AI製品が誰もが音楽制作を向上させる象徴的な画像。ChatGPTとDALL-E-3との会話から生成された画像。

はじまり

2023年2月、Googleは生成型音楽AI MusicLMで大きな話題を呼びました。その時点で、二つのことが明確になりました:

  1. 2023年はAIに基づく音楽生成の突破年となるだろう
  2. 新しいモデルがすぐにMusicLMを上回るだろう

多くの人が、次の突破モデルはMusicLMのモデルパラメータおよびトレーニングデータの規模が10倍になると予想しました。また、それはソースコードへの制限付きアクセスや著作権付きトレーニング素材の使用など、同じ倫理問題を引き起こすでしょう。

今日、私たちはこのうちの半分だけが真実だったことを知っています。

2023年6月にリリースされたMetaのMusicGenモデルは、以下のような大幅な改善をもたらしました。

  1. より高品質な音楽出力(24kHz → 32kHz)
  2. より自然な楽器音
  3. 任意のメロディに生成を条件付けるオプション(私はこのことについてブログ記事を書きました)

…それもトレーニングデータをより少なく使用し、コードとモデルの重みをオープンソース化し、商業ライセンスされたトレーニング素材のみを使用しています。

半年後、ハイプは徐々に沈静化してきました。ただし、Metaの研究チームFAIRは引き続き論文を発表し、コードを更新してMusicGenの改善を進めています。

…現状はどうなっているのか

リリース以来、MetaはMusicGenを2つの重要な方法でアップグレードしました:

  1. マルチバンドディフュージョンによる高品質な生成
  2. ステレオ生成によりより活気のある音声出力

これは2つの小さな改善に聞こえるかもしれませんが、大きな違いをもたらします。自分で聞いてみてください!ここでは、元のMusicGenモデル(3.3Bパラメータ)を使用して生成された10秒の音楽を紹介します。

公式MusicGen デモページからの生成トラックです。

使用されたプロンプトは以下の通りです:

土の味わい、環境に配慮した、ウクレレの調べ入り、和音の、そよ風のような、リラックスした、オーガニックな楽器、穏やかなグルーブ

それでは、同じプロンプトに基づいて6か月後にMusicGenが生成できる出力の例を見てみましょう:

著者によるMusicGen 3.3Bステレオによって生成された音楽です。

スマートフォンのスピーカーから再生している場合、違いはあまり気付かないかもしれません。しかし、他のデバイスで聞くと、全体的な音がより明瞭で自然であり、ステレオサウンドによって楽曲がより活気づけられていることが聞こえるはずです。

このブログ記事では、これらの改善点を紹介し、なぜそれらが重要であるのか、それらがどのように機能するのか、およびいくつかの例を紹介します。

マルチバンドディフュージョン-それは何をするのか?

マルチバンドディフュージョンとは何か、およびなぜそれが違いをもたらすのかを理解するために、元のMusicGenモデル[1]がどうやって出力を生み出しているのかを見てみましょう。

34kHzのサンプルレートで30秒のオーディオは、ほぼ100万の数字でコンピュータ上で表現されます。そのようなものをサンプルごとに生成することは、ChatGPTで10冊の小説を生成するのとほぼ同等です。

代わりに、Metaはニューラルオーディオ圧縮技術を利用しています。彼らの圧縮モデルであるEnCodec [2]は、音楽を34kHzから約0.05kHzまで圧縮することができますが、それと同時に元のサンプルレートに再構築するために必要な情報を保持します。EnCodecには、オーディオを圧縮するエンコーダと、元の音声を再構築するデコーダが含まれています(図1)。

図1 – Encodec:Metaのニューラルオーディオ圧縮モデル。画像提供:著者。

では、MusicGenに戻りましょう。音楽をフルサンプルレートで生成する代わりに、0.05kHzで生成し、EnCodecによって「復元」させることで、高い忠実度の出力を最小の計算時間とコストで得ることができます(図2)。

図2 – MusicGen:ユーザープロンプト(テキスト)がエンコードされたオーディオ信号に変換され、最終結果を生成するためにデコードされます。画像提供:著者。

EnCodecは素晴らしい技術ですが、その圧縮はロスレスではありません。再構築されたオーディオには元のものと比べて明らかなアーティファクトがあります。ご自身で聞いてみてください!

オリジナル音声

EnCodecの音楽例は、公式 EnCodecデモページから取得しました。

再構築された音声

EnCodecの音楽例は、公式 EnCodecデモページから取得しました。

MusicGenは完全にEnCodecに依存しているため、生成される音楽の品質には大きな制約があります。そのため、MetaはEnCodecのデコーダーパートの改良に取り組むことを決定しました。2023年8月、彼らはマルチバンド拡散を活用したEnCodecのアップデートされたデコーダーを開発しました[3]

MetaがEnCodecのオリジナルデコーダーで見た問題の1つは、低周波数を優先して生成し、その後に高周波数を生成する傾向があったことです。残念ながら、これは低周波数のエラーやアーティファクトが高周波数も歪め、出力品質を著しく低下させることを意味しました。

マルチバンド拡散は、周波数スペクトルの異なる領域を個別に生成してから結合することで、この問題に対処します。研究者たちは、この手順が生成された出力を大幅に改善することを明らかにしました。違いは私の視点からはっきりとわかります。オリジナルのEnCodecデコーダーとマルチバンド拡散デコーダーを使って同じトラックを聴いてみてください:

オリジナルデコーダー

マルチバンド拡散のデモページから生成されたトラックです。

マルチバンド拡散デコーダー

マルチバンド拡散のデモページから生成されたトラックです。

現在のテキストから音楽を生成するシステムの中でも、特に音楽楽器に対しては、常に非自然な音質があります。マルチバンド拡散により、出力音がはるかにクリーンで自然な音になり、MusicGenを新たなレベルに引き上げます。

なぜステレオサウンドは重要なのですか?

これまでのほとんどの生成音楽モデルは、モノラルサウンドを生成してきました。つまり、MusicGenは音や楽器を左右に配置していないため、より生き生きとしたエキサイティングなミックスにはなりません。ステレオサウンドがほとんど見逃されていた理由は、ステレオ生成が容易なタスクではないためです。

我々ミュージシャンは、ステレオ信号を生成する際には、ミックスの個々の楽器トラックにアクセスし、好きな位置に配置することができます。しかし、MusicGenはすべての楽器を個別に生成するのではなく、1つの結合されたオーディオ信号を生成します。これらの楽器ソースにアクセスできないため、ステレオサウンドを作成することは困難です。残念ながら、オーディオ信号を個別のソースに分割することは難しい問題です(私はそれについて ブログ記事を公開しました)、そしてその技術はまだ100%の完成度ではありません。

したがって、MetaはMusicGenモデルにステレオ生成を直接組み込むことにしました。新しいステレオ音楽データセットを使用して、彼らはMusicGenをステレオ出力を生成するように訓練しました。研究者たちは、ステレオ生成にはモノに比べて追加の計算コストがないと主張しています。

私は論文でステレオ手順があまり明確に説明されていないと感じますが、私の理解では次のように機能します(図3):MusicGenは、1つのモノ信号ではなく、2つの圧縮されたオーディオ信号(左チャンネルと右チャンネル)を生成することを学習しました。これらの圧縮された信号は、結合して最終のステレオ出力を構築する前に、個別にデコードする必要があります。このプロセスが2倍の時間をかけない理由は、MusicGenが1つの信号にかかっていた時間とほぼ同じ時間で2つの圧縮オーディオ信号を生成できるためです。

図3 — MusicGenステレオアップデート。このプロセスは論文で不十分に文書化されているため、確実ではないですが、教養ある推測として受け取ってください。著者による画像。

本格的なステレオサウンドを生み出すことができることは、MusicGenを他の最先端のモデルであるMusicLMやStable Audioとは異なる存在にします。私の観点から見ると、この「小さな」追加が生成される音楽の活気に大きな違いをもたらします。自分自身で聴いてみてください(スマートフォンのスピーカーで聞くのは難しいかもしれません):

モノ

ステレオ

結論

MusicGenはリリースされた日から印象的でした。しかし、その後もMetaのFAIRチームは製品を継続的に改良し、より本物に近い高品質な結果を可能にしました。音楽の生成において(MIDIなどではなく)オーディオ信号を生成するテキストから音楽モデルに関しては、私の観点から言えばMusicGenは競合他社よりも先んじています(2023年11月現在)。

さらに、MusicGenとその関連製品(EnCodec、AudioGen)はオープンソースであるため、意欲的なAIオーディオエンジニアにとってのインスピレーションの源となり、頼りになるフレームワークとなっています。6か月でMusicGenが達成した改善を見ると、2024年はエキサイティングな年になるとしか思えません。

もう1つ重要な点は、Metaの透明性のあるアプローチにより、ミュージシャン向けのソフトウェアにこのテクノロジーを統合したい開発者にとっての基礎的な業務も行っていることです。サンプルを生成したり、音楽のアイデアを考えたり、既存の作品のジャンルを変えたりするなど、私たちはすでにエキサイティングな応用を見始めています。十分な透明性を備えることで、AIが人間の音楽性に対する脅威だけでなく、音楽の創造がよりエキサイティングになる未来を築くことができます。

注:MusicGenはオープンソースですが、事前にトレーニングされたモデルは商業目的では使用できません!すべてのコンポーネントの使用方法に関する詳細な情報については、audiocraft GitHubリポジトリを訪問してください。

参考文献

[1] Copet et al. (2023). Simple and Controllable Music Generation. https://arxiv.org/pdf/2306.05284.pdf

[2] Défossez et al. (2022). High Fidelity Neural Audio Compression. https://arxiv.org/pdf/2210.13438.pdf

[3] Roman et al. (2023). From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion. https://arxiv.org/abs/2308.02560

私について

こんにちは!私は音楽学者であり、データサイエンティストです。AIと音楽の現在のトピックについての考えを共有しています。以下は、この記事に関連する私の以前の仕事の一部です:

VoAGILinkedinで見つけてください!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more