バイトダンスAI研究がStemGenを紹介:音楽の文脈を聞いて適切に反応するためにトレーニングされたエンドツーエンドの音楽生成ディープラーニングモデル

「バイトダンスAI研究がStemGenを紹介:音楽の文脈に適切に反応するエンドツーエンドの音楽生成ディープラーニングモデル」

音楽生成は、既存の音楽に存在するパターンと構造を模倣するためにモデルを訓練することで行われるディープラーニングの一環です。RNN、LSTMネットワーク、トランスフォーマーモデルなど、ディープラーニングの技術が一般的に使用されます。この研究では、音楽のコンテキストに応じて反応する非自己回帰型のトランスフォーマーベースのモデルを使用して音楽音声を生成する革新的なアプローチを探求しています。従来のモデルが抽象的な調整に頼っているのに対し、この新しいパラダイムは聞くことと反応することを重視しています。この研究では、フィールドの最新の進歩を取り入れ、アーキテクチャの改良について議論しています。

SAMIと字節跳動社の研究者は、音楽コンテキストに反応する非自己回帰型のトランスフォーマーベースのモデルを紹介し、MusicGenモデルのための公開されたエンコードチェックポイントを活用しています。評価には、Frechet Audio Distance(FAD)やMusic Information Retrieval Descriptor Distance(MIRDD)などの標準的な指標や音楽情報検索ディスクリプタのアプローチが使用されています。その結果、このモデルは客観的な指標と主観的MOSテストを通じて、競争力のある音声品質と強固な音楽のコンテキストに対する整合性を示しています。

この研究は、画像と言語処理からの技術を借用して、ディープラーニングを通じたエンドツーエンドの音楽音声生成の最新の進展を強調しています。音楽作曲におけるステムの整合性の課題を重視し、抽象的な調整に頼る従来のモデルに対する批判を行っています。音楽のコンテキストに対して反応するためのモデルに非自己回帰型のトランスフォーマーベースのアーキテクチャを使用するトレーニングパラダイムを提案しています。モデルの評価には、客観的な指標、音楽情報検索ディスクリプタ、および聴取テストが必要です。

この手法では、音楽生成に非自己回帰型のトランスフォーマーベースのモデルを使用し、別個の音声エンコーディングモデルで残差ベクトル量子化を組み合わせています。複数の音声チャンネルを連結された埋め込みを介して単一のシーケンス要素に組み合わせます。トレーニングにはマスキング手法が使用され、強化された音声コンテキストの整合性を向上させるためにトークンサンプリング中にクラシファイアフリーガイダンスが使用されます。フレーシェ音声距離や音楽情報検索ディスクリプタ距離などの客観的な指標によってモデルのパフォーマンスが評価されます。生成されたサンプルを実際のステムと比較することで評価が行われます。

この研究では、標準的な指標や音楽情報検索ディスクリプタアプローチ(FADやMIRDDなど)を使用して生成されたモデルを評価しています。実際のステムとの比較により、モデルは最先端のテキスト条件付きモデルと同等の音声品質を達成し、音楽のコンテキストに強い音楽的な整合性を示しています。音楽のトレーニングを受けた参加者を対象としたMean Opinion Scoreテストは、このモデルが現実的な音楽の結果を生成する能力を確認しています。生成されたステムと実際のステムの分布整合性を評価するMIRDDは、音楽の一貫性と整合性の尺度となります。

まとめると、行われた研究は以下のように要約できます:

  • この研究では、音楽のコンテキストに応答できる生成モデルの新しいトレーニングアプローチを提案しています。
  • このアプローチは、トランスフォーマーバックボーンを持つ非自己回帰言語モデルと、未検証の2つの改良点(マルチソースのクラシファイアフリーガイダンスと反復デコーディング中の因果バイアス)を導入しています。
  • これらのモデルは、オープンソースおよび独自のデータセットでトレーニングすることで最先端の音声品質を達成しています。
  • 標準的な指標や音楽情報検索ディスクリプタのアプローチによって最先端の音声品質が検証されています。
  • Mean Opinion Scoreテストは、モデルが現実的な音楽の結果を生成する能力を確認しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「LAMPをご紹介します:テキストからイメージ拡散モデルで動作パターンを学ぶためのフューションAIフレームワーク」

最近の研究で、研究者たちはテキストからビデオへの生成の課題に対処するために、画期的なフューションショットベースのチュ...

機械学習

「Hindsight Experience Replayを用いたNEAT」

数週間前にUnityでNEATを実装した後、その性能を向上させる方法を考えてみました強化学習アルゴリズムで使用される新しい技術...

データサイエンス

PDFからのエンティティ抽出をLLMsを使用して自動化する方法

現代の機械学習アプリケーションにおいて、高品質なラベル付きデータの必要性は言い尽くせませんモデルの性能向上から公平性...

AI研究

中国の研究者がCogVLMを紹介:パワフルなオープンソースのビジュアル言語基礎モデル

ビジュアル言語モデルのモデルは強力かつ柔軟です。次に、トークン予測を使用して、画像キャプション、ビジュアルクエスチョ...

AIニュース

「NSFが1,090万ドルの資金を安全なAI技術の開発に投資」

国立科学財団は、「安全な学習可能システム(Safe Learning-Enabled Systems)プログラム」を通じて、ユーザーが安心して利用...

機械学習

「勝つための機械学習の履歴書の作り方」

緻密に設計された履歴書は、機械学習の非常に競争力のある分野で雇用の見込みを開き、夢の仕事を確保するための切符になるこ...