AudioSep 記述するすべてを分離する
オーディオセップ:全てを分離する' (Ōdeo seppu Subete o buntan suru)
LASS(Language-queried Audio Source Separation)は、CAS(Computational Auditory Scene Analysis)の新たなパラダイムであり、デジタルオーディオのタスクおよびアプリケーションに対する自然言語クエリを使用して、与えられたオーディオの混合から目標の音を分離することを目指すものです。LASSフレームワークは、過去数年間において特に楽器などの特定の音源に対して望ましいパフォーマンスを達成する点で大きく進化してきましたが、オープンドメインにおいて目標の音を分離することはできません。
AudioSepは、自然言語クエリを使用して目標音の分離を可能にすることで、LASSフレームワークの現在の制約を解消することを目指した基幹モデルです。AudioSepフレームワークの開発者は、さまざまな大規模なマルチモーダルデータセットを用いてモデルを広範にトレーニングし、音楽楽器の分離、オーディオイベントの分離、音声の改善など、さまざまなオーディオタスクのパフォーマンスを評価しました。AudioSepの初期パフォーマンスはベンチマークを満たし、印象的なゼロショット学習能力を示し、強力な音の分離パフォーマンスを提供しています。
本記事では、AudioSepフレームワークの動作、トレーニングおよび評価に使用されるデータセット、およびAudioSepモデルの動作に関わる基本的な概念を詳しく説明します。まず、CASAフレームワークの基本的な紹介から始めましょう。
CASA、USS、QSS、LASSフレームワーク:AudioSepの基盤
CASAフレームワークまたはComputational Auditory Scene Analysisフレームワークは、開発者が音声システムを設計するために使用するフレームワークであり、音声システムを人間の聴覚システムと同様に複雑な音環境を知覚する能力を持たせるためのものです。音声の分離、特に目標音声の分離は、CASAフレームワーク内の研究の基本的な領域であり、実際の世界の音声録音を個々の音源録音またはファイルから分離することを目指します。音声の分離の重要性は、音楽ソースの分離、音声ソースの分離、音声の改善、目標音声の識別など、広範なアプリケーションに起因します。
- ダリー3がChatGPTの統合を持ってここに登場しました
- 信頼性のある世代をチェーンオブバーニケーションを通じて解放する 迅速なエンジニアリングの飛躍
- 「ゼロからヒーローへ:AutoGenがLLMを変革する方法」
過去に行われた音声分離に関する研究のほとんどは、主に音楽の分離や音声の分離など、1つ以上の音声ソースの分離を中心に行われてきました。USS(Universal Sound Separation)という名前の新しいモデルは、実世界の音声録音から任意の音を分離することを目指しています。ただし、実世界のアプリケーションでリアルタイムに動作することを考えると、すべての音源をオーディオの混合から分離することは困難で制限された課題です。
USSメソッドの代わりに、QSS(Query-based Sound Separation)メソッドがあります。これは特定の一連のクエリに基づいてオーディオの混合から個別のターゲット音声を分離することを目指しています。そのため、QSSフレームワークにより、開発者やユーザーは要件に基づいて混合から必要な音声ソースを抽出することができ、マルチメディアコンテンツの編集やオーディオ編集など、デジタルの実世界アプリケーションにおける実用的な解決策となります。
さらに、開発者は最近、QSSフレームワークの拡張であるLASSフレームワークまたはLanguage-queried Audio Source Separationフレームワークを提案しました。このフレームワークは、目標音声ソースの自然言語の説明を使用して音声の任意のソースをオーディオの混合から分離することを目指しています。LASSフレームワークにより、ユーザーは自然言語の指示のセットを使用して目標音声ソースを抽出することができるため、デジタルオーディオアプリケーションにおいて広範な適用が可能な強力なツールとなる可能性があります。音声分離のための伝統的なオーディオクエリやビジョンクエリベースの手法と比較して、音声分離に対する自然言語の指示は柔軟性を追加し、クエリ情報の取得をより簡単かつ便利にします。さらに、一定の指示やクエリの事前定義セットを使用するラベルクエリベースの音声分離フレームワークと比較して、LASSフレームワークでは入力クエリの数を制限せず、オープンドメインにシームレスに汎用化する柔軟性があります。
元々、LASSフレームワークは、モデルが一連のラベル付きオーディオテキストペアデータセットでトレーニングされる教師あり学習に依存していました。しかし、この方法の主な問題は、注釈付きのオーディオテキストデータの利用可能性に制約があることです。LASSフレームワークの信頼性をアノテーションされたオーディオテキストラベルデータに依存しないようにするために、モデルはマルチモーダル教師付き学習アプローチを使用してトレーニングされます。マルチモーダル教師付き学習アプローチを使用する主な目的は、CLIP(Contrastive Language Image Pre Training)モデルなどのマルチモーダル対照事前トレーニングモデルをクエリエンコーダとしてフレームワークに使用することです。CLIPフレームワークは、テキストの埋め込みを音声やビジョンなどの他のモダリティに対して整列させる能力を持っているため、デベロッパーはデータ豊富なモダリティを使用してLASSモデルをトレーニングすることができ、テキストデータとの干渉をゼロショット設定で可能とします。ただし、現在のLASSフレームワークは小規模なデータセットを使用してトレーニングされており、LASSフレームワークのさまざまな領域への適用はまだ一探されています。
現在のLASSフレームワークが直面している制約を解決するために、開発者はAudioSepという基盤モデルを導入しました。このモデルは、自然言語の説明を使用してオーディオの混合音から音声を分離することを目的としています。AudioSepの現在の焦点は、既存の大規模なマルチモーダルデータセットを活用して汎用的なLASSモデルのオープンドメインアプリケーションでの汎化を可能にする事前トレーニング済みの音声分離モデルの開発です。要約すると、AudioSepモデルは次のとおりです:「大規模なオーディオおよびマルチモーダルデータセットでトレーニングされた自然言語クエリまたは説明を使用したオープンドメインの普遍的な音声分離のための基盤モデル」。
AudioSep:主要なコンポーネントとアーキテクチャ
AudioSepフレームワークのアーキテクチャは、テキストエンコーダと分離モデルの2つの主要なコンポーネントで構成されています。
テキストエンコーダ
AudioSepフレームワークでは、CLIPまたはContrastive Language Image Pre TrainingモデルまたはCLAPまたはContrastive Language Audio Pre Trainingモデルのテキストエンコーダを使用して、自然言語クエリ内のテキスト埋め込みを抽出します。入力テキストクエリは「N」トークンのシーケンスであり、テキストエンコーダは与えられた入力言語クエリのテキスト埋め込みを抽出するためにテキストトークンを符号化するためにトランスフォーマーブロックのスタックを使用します。テキストエンコーダは、入力テキストトークンを符号化するためにトランスフォーマーレイヤを通過した後、出力表現を集約し、CLAPモデルまたはCLIPモデルの次元に対応する固定長のD次元ベクトル表現の開発に結果的につながります。また、テキストエンコーダはトレーニング期間中にフリーズされます。
CLIPモデルは、対比学習を使用して画像とテキストのペアデータセットで事前トレーニングされており、そのテキストエンコーダが視覚表現と共有される意味空間にテキストの説明をマッピングすることを学習する主な理由です。AudioSepがCLIPのテキストエンコーダを使用することで得られる利点は、ラベル付けされたオーディオテキストデータの要件なしで、視覚埋め込みを代わりに使用して未ラベルのオーディオビジュアルデータからLASSモデルのスケーリングアップやトレーニングを行うことができることです。
CLAPモデルはCLIPモデルと同様に機能し、対比学習目的を使用して、テキストエンコーダを使用してオーディオと言語を接続し、テキストとオーディオの説明を共通のオーディオテキスト潜在空間にまとめます。
分離モデル
AudioSepフレームワークでは、周波数ドメインのResUNetモデルがフレームワークの分離バックボーンとしてオーディオクリップの混合を入力として使用します。フレームワークは、まず波形にSTFT(短時間フーリエ変換)を適用して複素スペクトログラム、大きさスペクトログラム、およびXの位相を抽出します。次に、モデルは同じ設定に従い、エンコーダーデコーダーネットワークを構築して大きさスペクトログラムを処理します。
ResUNetエンコーダーデコーダーネットワークは、6つの残余ブロック、6つのデコーダーブロック、および4つのボトルネックブロックで構成されています。各エンコーダーブロックのスペクトログラムは、4つの残余伝統的ブロックを使用して自身をボトルネック特徴にダウンサンプリングし、デコーダーブロックは特徴をアップサンプリングして分離成分を取得します。これに続いて、各エンコーダーブロックと対応するデコーダーブロックは、同じアップサンプリングまたはダウンサンプリングレートで動作するスキップ接続を確立します。フレームワークの残余ブロックは、2つのリーキーReLU活性化レイヤー、2つのバッチ正規化レイヤー、および2つのCNNレイヤーで構成されており、さらに、フレームワークは各個別の残余ブロックの入力と出力を接続する追加の残余ショートカットも導入しています。ResUNetモデルは、入力として複素スペクトログラムXを受け取り、テキスト埋め込みに依存した位相残差がスケーリングとスペクトログラムの角度の回転を制御する条件付きの大きさマスクMを出力します。分離された複素スペクトログラムは、予測された大きさマスクと位相残差を混合のSTFT(短時間フーリエ変換)との積で抽出することができます。
AudioSepでは、ResUNetの畳み込みブロックのデプロイ後にFiLmまたはFeature-wise Linearly modulated layerを使用して、分離モデルとテキストエンコーダを結びつけます。
トレーニングと損失
AudioSepモデルのトレーニングでは、開発者は音量の増幅手法を使用し、グラウンドトゥルースと予測された波形間のL1損失関数を使用してAudioSepフレームワークをエンドツーエンドでトレーニングします。
データセットとベンチマーク
前のセクションで述べたように、AudioSepは現在のLASSモデルがアノテーションされたオーディオテキストのペアのデータセットに依存している問題を解決することを目指した基礎モデルです。AudioSepモデルは、マルチモーダル学習能力を持たせるため、さまざまなデータセットでトレーニングされます。開発者がAudioSepフレームワークをトレーニングするために使用するデータセットとベンチマークの詳細な説明は次のとおりです。
AudioSet
AudioSetは、YouTubeから直接抽出された200万以上の10秒のオーディオスニペットから成る弱くラベル付けされた大規模なオーディオデータセットです。AudioSetデータセットの各オーディオスニペットは、音のイベントの具体的なタイミングの詳細を含まずに、サウンドクラスの存在または不在で分類されます。AudioSetデータセットには、自然音、人間の音、車の音など500を超える異なるオーディオクラスがあります。
VGGSound
VGGSoundデータセットは、AudioSetと同様にYouTubeから直接取得された大規模なビジュアルオーディオデータセットであり、20万以上の10秒のビデオクリップが含まれています。VGGSoundデータセットは、人間の音、自然音、鳥の音など300以上の音のクラスに分類されています。VGGSoundデータセットの使用により、対象音を生成するオブジェクトを対応するビジュアルクリップで説明できることが保証されます。
AudioCaps
AudioCapsは公に利用可能な最大のオーディオキャプションデータセットであり、AudioSetデータセットから抽出された50,000以上の10秒のオーディオクリップから構成されています。AudioCapsのデータは、トレーニングデータ、テストデータ、および検証データの3つのカテゴリに分かれており、オーディオクリップはAmazon Mechanical Turkプラットフォームを使用して自然言語の説明とともに人手で注釈が付けられています。トレーニングデータセットの各オーディオクリップには単一のキャプションがあり、テストおよび検証セットのデータには5つの正解キャプションが含まれていることに注意してください。
ClothoV2
ClothoV2は、FreeSoundプラットフォームから取得したクリップから構成されるオーディオキャプションデータセットであり、AudioCapsと同様に、各オーディオクリップはAmazon Mechanical Turkプラットフォームを使用して自然言語の説明とともに人手で注釈が付けられています。
WavCaps
WavCapsは、AudioSetと同様に弱くラベル付けされた大規模なオーディオデータセットであり、キャプション付きの40万以上のオーディオクリップから成り、合計トレーニングデータの実行時間は約7568時間です。WavCapsデータセットのオーディオクリップは、BBC Sound Effects、AudioSet、FreeSound、SoundBibleなど、さまざまな音源から取得されています。
トレーニングの詳細
トレーニングフェーズでは、AudioSepモデルはトレーニングデータセットから2つの異なるオーディオクリップからランダムに2つのオーディオセグメントをサンプリングし、それらを混ぜ合わせて各オーディオセグメントの長さが約5秒のトレーニングミクスチャを作成します。モデルは、ウィンドウサイズ1024、ホップサイズ320のハンウィンドウを使用して波形信号から複合スペクトログラムを抽出します。
次に、モデルはCLIP/CLAPモデルのテキストエンコーダを使用して、デフォルトの設定でテキスト埋め込みを抽出します。分離モデルには、30層、6つのエンコーダブロック、6つのデコーダブロックからなるResUNet層を使用して、AudioSepフレームワークが音声分離フレームワークに従うアーキテクチャを採用しています。さらに、各エンコーダブロックには、3×3のカーネルサイズを持つ2つの畳み込み層があり、エンコーダブロックの出力特徴マップの数は、32、64、128、256、512、1024の順になっています。デコーダブロックはエンコーダブロックと対称性を共有しており、開発者はバッチサイズ96でAudioSepモデルをトレーニングするためにAdamオプティマイザを適用します。
評価結果
既知のデータセット上での評価
以下の図は、トレーニングフェーズ中におけるトレーニングデータセットなど既知のデータセット上でのAudioSepフレームワークのパフォーマンスを比較したものです。以下の図は、音声エンハンスメントモデル、LASS、CLIPなどのベースラインシステムと比較したAudioSepフレームワークのベンチマーク評価結果を表しています。CLIPテキストエンコーダを使用したAudioSepモデルは、AudioSep-CLIPとして表され、CLAPテキストエンコーダを使用したAudioSepモデルは、AudioSep-CLAPとして表されています。
図に示されているように、AudioSepフレームワークはオーディオキャプションまたはテキストラベルを入力クエリとして使用する場合に優れたパフォーマンスを発揮し、結果は従来のベンチマークLASSおよびオーディオクエリを使用した音源分離モデルと比較して、AudioSepフレームワークの優れたパフォーマンスを示しています。
未知のデータセットにおいて
開発者は、ゼロショット設定でのAudioSepのパフォーマンスを評価し続け、ゼロショット設定での印象的な分離パフォーマンスを提供するAudioSepフレームワークの結果を図に示しています。
さらに、以下の図は、AudioSepモデルをVoicebank-Demand音声強調に対して評価した結果を示しています。
AudioSepフレームワークの評価は、ゼロショット設定の未知のデータセットにおいて堅牢で望ましいパフォーマンスを示し、新しいデータ分布での音声操作タスクを実行するための道を開くことに成功しています。
分離結果の可視化
以下の図は、開発者がAudioSep-CLAPフレームワークを使用して、グラウンドトゥルースのターゲットオーディオソース、オーディオミクス、およびテキストクエリを使用した分離されたオーディオソースのスペクトログラムの可視化を実施した結果を示しています。この結果により、スペクトログラムの分離されたソースパターンがグラウンドトゥルースのソースに近いことが観察され、実験中に得られた客観的な結果をさらに補強しています。
テキストクエリの比較
開発者は、AudioCaps Mini上でのAudioSep-CLAPおよびAudioSep-CLIPのパフォーマンスを評価し、AudioSetのイベントラベル、AudioCapsのキャプション、および再注釈された自然言語の説明を使用して異なるクエリの効果を調査しています。以下の図は、AudioCaps Miniの例を示しています。
結論
AudioSepは、オーディオ分離のために自然言語の説明を使用するオープンドメインの普遍的なサウンド分離フレームワークを目指して開発された基礎モデルです。評価中に観察されたように、AudioSepフレームワークはオーディオキャプションまたはテキストラベルをクエリとして使用することで、ゼロショットおよび<与えられたリンクも参考してください>非教示学習がスムーズに行えます。AudioSepの結果と評価パフォーマンスは、LASSなどの現行の最先端の音源分離フレームワークよりも優れたパフォーマンスを示しており、人気のある音源分離フレームワークの現在の制限を解決することが可能かもしれません。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles