「オーディオソース分離のマスターキー:AudioSepを紹介して、あなたが説明するものを分離します」

Introducing the master key of audio source separation AudioSep, which separates what you describe.

Computational Auditory Scene Analysis(CASA)は、複雑な聴覚環境で個別の音源を分離し理解することに焦点を当てた音声信号処理の分野です。LASS(Language-queried Audio Source Separation)は、InterSpeech 2022で導入されたCASAの新しいアプローチです。LASSの目的は、自然言語クエリに基づいてオーディオ混合物からターゲット音を分離することであり、デジタルオーディオアプリケーションにおける自然でスケーラブルなインターフェースを提供します。音楽楽器や一部のオーディオイベントなどの音源に対して優れた分離性能を実現しているにもかかわらず、LASSに関する最近の取り組みは、オープンドメイン設定における音響概念の分離がまだできていません。

これらの課題に対処するため、研究者は「AudioSep – separate anything audio model」と呼ばれる、タスク間での印象的なゼロショット汎化と音声増強、オーディオイベント分離、音楽楽器分離における強力な分離能力を示す基盤モデルを開発しました。

AudioSepには、テキストエンコーダと分離モデルの2つの主要なコンポーネントがあります。テキストエンコーダにはCLIPまたはCLAPのテキストエンコーダが使用され、テキスト埋め込みを抽出します。次に、6つのエンコーダブロックと6つのデコーダブロックからなる30層のResUNetを利用したユニバーサルサウンド分離が行われます。各エンコーダブロックには、3×3のカーネルサイズを持つ2つの畳み込み層が含まれています。AudioSepモデルは、8つのTesla V100 GPUカードで1Mステップトレーニングされました。

AudioSepは、オーディオイベント分離、音楽楽器分離、音声強化などのタスクにおける能力を詳細に評価されました。オーディオキャプションやテキストラベルをクエリとして使用することで、強力な分離性能と印象的なゼロショット汎化能力を発揮し、以前のオーディオクエリや言語クエリによる音響分離モデルを大幅に上回りました。

研究者は、AudioSep-CLAPモデルを使用して、オーディオ混合物とグラウンドトゥルースのターゲット音源のスペクトログラムを視覚化し、さまざまな音源(例:オーディオイベント、声)のテキストクエリを使用して音源を分離しました。分離された音源のスペクトログラムパターンは、グラウンドトゥルース音源のものと類似しており、客観的な実験結果と一致していました。

彼らは、「テキストラベル」の代わりに「オリジナルキャプション」をテキストクエリとして使用することで、パフォーマンスが大幅に向上することを発見しました。これは、人間が注釈付けしたキャプションがオーディオイベントラベルよりも詳細で正確なソースの説明を提供するためです。再注釈されたキャプションの個人の性格や可変的な単語分布にもかかわらず、「再注釈されたキャプション」を使用した結果は「オリジナルキャプション」を使用した結果よりもやや劣っていましたが、「テキストラベル」を使用した結果よりも優れていました。これらの結果は、AudioSepの堅牢性と有望性を実証し、それに対して説明するものを分離するツールとなりました。

AudioSepの次のステップは、教師なし学習技術による分離、ビジョンクエリ分離、オーディオクエリ分離、スピーカー分離タスクへの現在の作業の拡張です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIによる生産性向上 生成AIが様々な産業において効率の新たな時代を開く

2022年11月22日、ほとんど仮想的な瞬間が訪れ、それは地球上のほぼすべての産業の基盤を揺るがしました。 その日、OpenAIは史...

データサイエンス

なぜハイプが重要なのか:AIについて現実的な考え方が必要

ELIZAはChatGPTにいくつかの類似点を持つ初期のチャットボットでしたなぜこの興奮が重要なのでしょうか?船を発明すると、船...

機械学習

「AIの潜在能力解放:クラウドGPUの台頭」

「クラウドGPU」とは、AIアプリケーションによる複雑な計算課題に対するスケーラブルでコスト効率の良い包括的なソリューショ...

データサイエンス

「高度な生成型AIの探求 | 条件付きVAEs」

はじめに この記事へようこそ。ここでは、生成AIのエキサイティングな世界を探求します。主にConditional Variational Autoen...

データサイエンス

ChatGPTのコードインタプリター:知っておくべきすべてのこと

OpenAIは、興奮をもって発表を行っており、最新の発表はChatGPT Plusのユーザーを喜ばせることでしょう。数ヶ月の期待を経て...

人工知能

「ビジネスを拡大するための25のChatGPTプロンプト」

「25個のChatGPTテンプレートのプロンプトをコピーして貼り付けすることで、あなたのビジネス(および収入)を次のレベルに引...