「オーディオソース分離のマスターキー:AudioSepを紹介して、あなたが説明するものを分離します」

Introducing the master key of audio source separation AudioSep, which separates what you describe.

Computational Auditory Scene Analysis(CASA)は、複雑な聴覚環境で個別の音源を分離し理解することに焦点を当てた音声信号処理の分野です。LASS(Language-queried Audio Source Separation)は、InterSpeech 2022で導入されたCASAの新しいアプローチです。LASSの目的は、自然言語クエリに基づいてオーディオ混合物からターゲット音を分離することであり、デジタルオーディオアプリケーションにおける自然でスケーラブルなインターフェースを提供します。音楽楽器や一部のオーディオイベントなどの音源に対して優れた分離性能を実現しているにもかかわらず、LASSに関する最近の取り組みは、オープンドメイン設定における音響概念の分離がまだできていません。

これらの課題に対処するため、研究者は「AudioSep – separate anything audio model」と呼ばれる、タスク間での印象的なゼロショット汎化と音声増強、オーディオイベント分離、音楽楽器分離における強力な分離能力を示す基盤モデルを開発しました。

AudioSepには、テキストエンコーダと分離モデルの2つの主要なコンポーネントがあります。テキストエンコーダにはCLIPまたはCLAPのテキストエンコーダが使用され、テキスト埋め込みを抽出します。次に、6つのエンコーダブロックと6つのデコーダブロックからなる30層のResUNetを利用したユニバーサルサウンド分離が行われます。各エンコーダブロックには、3×3のカーネルサイズを持つ2つの畳み込み層が含まれています。AudioSepモデルは、8つのTesla V100 GPUカードで1Mステップトレーニングされました。

AudioSepは、オーディオイベント分離、音楽楽器分離、音声強化などのタスクにおける能力を詳細に評価されました。オーディオキャプションやテキストラベルをクエリとして使用することで、強力な分離性能と印象的なゼロショット汎化能力を発揮し、以前のオーディオクエリや言語クエリによる音響分離モデルを大幅に上回りました。

研究者は、AudioSep-CLAPモデルを使用して、オーディオ混合物とグラウンドトゥルースのターゲット音源のスペクトログラムを視覚化し、さまざまな音源(例:オーディオイベント、声)のテキストクエリを使用して音源を分離しました。分離された音源のスペクトログラムパターンは、グラウンドトゥルース音源のものと類似しており、客観的な実験結果と一致していました。

彼らは、「テキストラベル」の代わりに「オリジナルキャプション」をテキストクエリとして使用することで、パフォーマンスが大幅に向上することを発見しました。これは、人間が注釈付けしたキャプションがオーディオイベントラベルよりも詳細で正確なソースの説明を提供するためです。再注釈されたキャプションの個人の性格や可変的な単語分布にもかかわらず、「再注釈されたキャプション」を使用した結果は「オリジナルキャプション」を使用した結果よりもやや劣っていましたが、「テキストラベル」を使用した結果よりも優れていました。これらの結果は、AudioSepの堅牢性と有望性を実証し、それに対して説明するものを分離するツールとなりました。

AudioSepの次のステップは、教師なし学習技術による分離、ビジョンクエリ分離、オーディオクエリ分離、スピーカー分離タスクへの現在の作業の拡張です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ビッグテックと生成AI:ビッグテックが生成AIを制御するのか?

「ビッグテックと生成AIの深まる関係を探求する:これらの巨人はセクターを支配するのか、それともバランスの取れたAIの景観...

AIニュース

「イーロン・マスク氏、中国での超知能の台頭に警鐘を鳴らす」と警告

著名な起業家であるイーロン・マスク氏が最近、Twitter Spacesのコールで大胆な発言をし、中国における超知能の可能性につい...

人工知能

2023年のトップ10 AI QRコードジェネレーター

QRコードは、特に支払いの便利さから広く人気があります。金融の応用にとどまらず、QRコードはさまざまなデータタイプを包括...

人工知能

「もしスローガンが真実だったら(ChatGPTによると)」

「私たちはChatGPTに、世界最大の企業のスローガンを再現するように依頼しました今回は、彼らは真実を伝えなければなりません...

機械学習

オラクルは、AIとクラウドを基盤とした未来のビジョンを明らかにしました

ラリー・エリソンは、生成的AIが変革的であり、エンタープライズAIアプリケーションの構築におけるOracle Cloudの独特な利点...