テキストから音楽を生成するAI：Stability Audio、GoogleのMusicLMなど

AI音楽生成：Stability Audio、GoogleのMusicLM

音楽は、人の魂に共鳴する芸術形態であり、私たち全員の恒久の伴侶であります。人工知能を使って音楽を作り出すことは、数十年前から始まりました。最初の試みは単純で直感的であり、基本的なアルゴリズムによって単調なメロディを作り出していました。しかし、技術の進歩とともに、AI音楽生成器の複雑さと能力も進化し、深層学習と自然言語処理（NLP）がこの技術の中で重要な役割を果たすようになりました。

今日、Spotifyのようなプラットフォームでは、AIを活用してユーザーの音楽体験を最適化しています。これらの深層学習アルゴリズムは、テンポやムードなどのさまざまな音楽要素に基づいて個々の好みを分析し、パーソナライズされた曲の提案を作り出します。さらに、広範な聴取パターンを分析し、インターネット上の曲に関連する議論を調査して詳細な曲のプロファイルを作成します。

音楽におけるAIの起源：アルゴリズミックな作曲から生成モデリングへの旅

音楽の世界でのAIの初期の段階では、1950年代から1970年代までの範囲で、主にアルゴリズミックな作曲に焦点が当てられていました。これは、コンピュータが定義されたルールセットを使用して音楽を作り出す方法です。この時期の最初の顕著な作品は、1957年のイリアック弦楽四重奏曲でした。これはモンテカルロアルゴリズムを使用し、伝統的な音楽理論と統計的な確率の範囲内でピッチとリズムを決定するプロセスでした。

画像は著者によってMidjourneyを使用して生成されました

この時期、イアニス・クセナキスも確率過程という概念を利用して音楽を制作しました。彼はコンピュータとFORTRAN言語を使用して複数の確率関数を結びつけ、異なるグラフィカルな表現が多様な音響空間に対応するパターンを作り出しました。

テキストを音楽に翻訳する複雑さ

音楽は、メロディ、ハーモニー、リズム、テンポなどの要素を含んだ、豊かで多次元のデータ形式で保存されており、テキストを音楽に翻訳する作業は非常に複雑です。標準的な曲は、コンピュータ上で約100万の数字で表されます。この数字は、画像やテキストなどの他のデータ形式よりもはるかに大きいです。

音声生成の分野では、現実的なサウンドを作り出すための革新的なアプローチが見られます。一つの方法は、スペクトログラムを生成し、それを音声に変換することです。

もう一つの戦略は、楽譜などの音楽の象徴的な表現を利用することで、音楽家が解釈して演奏できるようにすることです。この方法は、MagentaのChamber Ensemble Generatorなどのツールによって成功裏にデジタル化されており、コンピュータと楽器との間の通信を容易にするプロトコルであるMIDI形式で音楽を作り出すことができます。

これらのアプローチは、分野を進化させましたが、それぞれ独自の制約も伴っており、音声生成の複雑さを強調しています。

トランスフォーマーベースの自己回帰モデルとU-Netベースの拡散モデルは、技術の最前線にあり、オーディオ、テキスト、音楽などの生成において最先端の結果（SOTA）を生み出しています。OpenAIのGPTシリーズやほとんどの他のLLMは、エンコーダ、デコーダ、またはその両方のアーキテクチャを利用したトランスフォーマーによって駆動されています。アート/イメージの側では、MidJourney、Stability AI、DALL-E 2などが拡散フレームワークを活用しています。これらの2つのコア技術は、オーディオセクターでもSOTAの結果を達成するために重要な役割を果たしています。この記事では、GoogleのMusicLMとStable Audioについて詳しく説明します。

GoogleのMusicLM

GoogleのMusicLMは今年の5月にリリースされました。MusicLMは、テキストの説明に応じて感情をこめた高品質な音楽を生成することができます。階層的なシーケンス・トゥ・シーケンスモデリングを使用することで、MusicLMは24 kHzで長時間にわたって共鳴する音楽にテキストの説明を変換する能力を持っています。

このモデルは、テキストの入力に従うだけでなく、メロディに基づいて条件付ける能力も示しています。つまり、ハミングや口笛のメロディを受け取り、テキストのキャプションで示されたスタイルに従って変換することができます。

技術的な洞察

MusicLMは、2022年にオーディオ生成のために導入されたAudioLMの原則を活用しています。AudioLMは、離散的表現空間内の言語モデリングタスクとしてオーディオを合成し、粗いから細かいオーディオの離散単位であるトークンの階層を利用します。このアプローチにより、高品質かつ長期的な連続性が実現されます。

生成プロセスを容易にするために、MusicLMはAudioLMの機能を拡張してテキスト条件付けを組み込みます。この手法は、生成されたオーディオを入力テキストのニュアンスに合わせるための手法であり、音楽と対応するテキストの説明を埋め込み空間で近くに配置するために訓練された共有の埋め込み空間を作成するMuLanを使用して実現されます。この戦略により、訓練中にキャプションの必要性を効果的に排除し、オーディオのみのデータセットでモデルを訓練することができます。

MusicLMモデルはまた、音声トークナイザとしてSoundStreamを使用しており、残差ベクトル量子化（RVQ）を活用した効率的かつ高品質な音声圧縮により、6 kbpsの24 kHzの音楽を再構築することができます。

MusicLMの事前学習プロセスのイラスト：SoundStream、w2v-BERT、およびMulan | 画像の出典：こちら

さらに、MusicLMはメロディの条件付けを許容することで、単純なハミングのメロディでも正確なテキストスタイルの説明に合わせて素晴らしい聴覚体験の基盤を築くことができます。

MusicLMの開発者はまた、人間の専門家が作成した豊富なテキストの説明と共に、5.5kの音楽とテキストのペアを特集したデータセットMusicCapsをオープンソース化しました。こちらで確認することができます：Hugging FaceのMusicCaps。

GoogleのMusicLMでAIサウンドトラックを作成する準備はできていますか？以下に始める方法があります：

公式のMusicLMウェブサイトにアクセスし、「始める」をクリックします。
「興味を登録する」を選択して、ウェイトリストに参加します。
Googleアカウントを使用してログインします。
アクセスが許可されると、「今すぐ試す」をクリックして開始します。

以下は私が試したいくつかの例のプロンプトです：

「瞑想的な曲、落ち着いていて soothing で、フルートとギターが入っています。音楽はゆっくりとしており、平和と静けさを感じさせることに重点を置いています。」

「サックスの入ったジャズ」

従来のSOTAモデルであるRiffusionやMubertと比較して、MusicLMは質的評価でより好まれ、テキストキャプションと10秒のオーディオクリップの互換性が参加者に好評価されました。

MusicLMのパフォーマンス、画像の出典：こちら

Stability Audio

Stability AIは先週、「Stable Audio」というテキストメタデータとオーディオファイルの長さと開始時刻に依存する潜在的な拡散モデルアーキテクチャを導入しました。このアプローチは、GoogleのMusicLMと同様に生成されたオーディオの内容と長さを制御することができ、トレーニングウィンドウサイズまで指定された長さのオーディオクリップを作成することができます。

Stable Audio

Technical Insights

Stable Audioは、変分オートエンコーダ（VAE）とテキストエンコーダと連動するU-Netベースの条件付け拡散モデルなど、複数のコンポーネントで構成されています。

Stable Audioのアーキテクチャ、画像の出典：こちら

VAEは、ステレオオーディオをデータ圧縮されたノイズ耐性のある可逆的な損失yな潜在エンコーディングに圧縮することで、高速な生成とトレーニングを可能にします。これにより、生のオーディオサンプルを扱う必要がなくなります。

テキストエンコーダは、CLAPモデルから派生したものであり、単語と音の複雑な関係を理解するために重要な役割を果たし、トークン化された入力テキストの情報豊かな表現を提供します。これは、CLAPテキストエンコーダのペヌルティメイト層からのテキスト特徴を利用して、クロスアテンションレイヤを介して拡散U-Netに統合することで実現されます。

重要な側面は、タイミング埋め込みの組み込みです。これは、オーディオチャンクの開始秒と元のオーディオファイルの合計時間に基づいて計算されます。これらの値は、1秒ごとの離散的な学習埋め込みに変換され、プロンプトトークンと組み合わせてU-Netのクロスアテンション層に供給されます。これにより、ユーザーは出力オーディオの全体的な長さを制御することができます。

Stable Audioモデルは、音楽ストックプロバイダーのAudioSparxとの共同作業を通じて、800,000以上のオーディオファイルの包括的なデータセットを使用してトレーニングされました。

Stable Audioコマーシャル

Stable Audioは無料バージョンを提供しており、1ヶ月につき最大20秒のトラックを最大20回生成することができます。また、$12/月のプロプランでは、最大90秒のトラックを最大500回生成することができます。

以下は、Stable Audioを使用して作成したオーディオクリップです。

Midjourneyを使用して作成された画像

「シネマティック、サウンドトラック、ジェントルレインフォール、アンビエント、癒し、遠くの犬の吠え声、落ち着かせる葉のざわめき、微風、40 BPM」

このような細工されたオーディオピースの応用は無限です。映画製作者は、この技術を活用して豊かで没入感のある音景を作り出すことができます。商業セクターでは、広告主はこれらのカスタマイズされたオーディオトラックを利用することができます。さらに、このツールは個々のクリエイターやアーティストに、実験や革新の場を開き、予算や技術的な専門知識なしに、物語を語り、感情を呼び起こし、深みのある雰囲気を作り出す音の作品を制作する無限の可能性を提供します。

プロンプトのヒント

テキストプロンプトを使用して完璧なオーディオを作成しましょう。以下は、始めるためのクイックガイドです:

詳細にする: ジャンル、ムード、楽器を指定します。例: シネマティック、ワイルドウエスト、パーカッション、緊張感、大気的
ムード設定: 音楽的な要素と感情的な用語を組み合わせて、希望するムードを伝えます。
楽器の選択: 「響きのあるギター」や「力強い合唱」など、楽器名を形容詞で強調します。
BPM: テンポをジャンルに合わせて調整し、ハーモニーのある出力を作り出します。例えば、ドラムンベースのトラックには「170 BPM」を使用します。

終わりに

Midjourneyを使用して作成された画像

この記事では、アルゴリズムによる作曲からGoogleのMusicLMやStability Audioなどの高度な生成AIフレームワークまで、AIによって生成される音楽/オーディオについて詳しく説明しました。これらの技術は、ディープラーニングとSOTA圧縮モデルを活用して、音楽の生成だけでなく、リスナーの体験を洗練させます。

しかし、これは常に進化し続ける領域であり、長期的な一貫性の維持やAIによる音楽の真正性に関する議論など、この分野のパイオニアに挑戦する課題があります。たった1週間前、DrakeやThe Weekndのスタイルを取り入れたAIによる曲が話題となり、今年の初めにオンラインで火がつきました。しかし、それはグラミー賞のノミネーションリストから削除され、業界内でAIによる音楽の正当性に関する議論を示しています（出典）。AIが音楽とリスナーの間の隔たりを埋めるにつれて、技術が芸術と共存し、伝統を尊重しながらイノベーションを促進するエコシステムを確実に推進しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Generative AINLPPrompt Engineering

Was this article helpful?

93 out of 132 found this helpful

テキストから音楽を生成するAI：Stability Audio、GoogleのMusicLMなど

音楽におけるAIの起源：アルゴリズミックな作曲から生成モデリングへの旅

テキストを音楽に翻訳する複雑さ

GoogleのMusicLM

技術的な洞察

Stability Audio

Technical Insights

プロンプトのヒント

終わりに

Was this article helpful?

暗号学のゴシップパート1と2

You.comは、複雑な数学や科学の質問に対してより正確な回答を提供するためのコード実行機能を備えたAIエージェント、YouAgentをリリースしました

AIニュース

人工知能の未来を形作る：進歩と革新のための迅速なエンジニアリングの重要性

このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています

「Nvidiaの画期的なAIイメージパーソナライゼーション：灌流法」

「A.I.が住宅法案を書いた批評家はそれがインテリジェントでないと言っています」

AIにおける事実性の向上このAI研究は、より正確かつ反映性のある言語モデルを実現するためのセルフ-RAGを紹介します

テンセントAIラボは、検索補完された言語モデルの堅牢性と信頼性を高めるために、Chain-of-Noting（CoN）を導入します