「オーディオソース分離のマスターキー:AudioSepを紹介して、あなたが説明するものを分離します」

Introducing the master key of audio source separation AudioSep, which separates what you describe.

Computational Auditory Scene Analysis(CASA)は、複雑な聴覚環境で個別の音源を分離し理解することに焦点を当てた音声信号処理の分野です。LASS(Language-queried Audio Source Separation)は、InterSpeech 2022で導入されたCASAの新しいアプローチです。LASSの目的は、自然言語クエリに基づいてオーディオ混合物からターゲット音を分離することであり、デジタルオーディオアプリケーションにおける自然でスケーラブルなインターフェースを提供します。音楽楽器や一部のオーディオイベントなどの音源に対して優れた分離性能を実現しているにもかかわらず、LASSに関する最近の取り組みは、オープンドメイン設定における音響概念の分離がまだできていません。

これらの課題に対処するため、研究者は「AudioSep – separate anything audio model」と呼ばれる、タスク間での印象的なゼロショット汎化と音声増強、オーディオイベント分離、音楽楽器分離における強力な分離能力を示す基盤モデルを開発しました。

AudioSepには、テキストエンコーダと分離モデルの2つの主要なコンポーネントがあります。テキストエンコーダにはCLIPまたはCLAPのテキストエンコーダが使用され、テキスト埋め込みを抽出します。次に、6つのエンコーダブロックと6つのデコーダブロックからなる30層のResUNetを利用したユニバーサルサウンド分離が行われます。各エンコーダブロックには、3×3のカーネルサイズを持つ2つの畳み込み層が含まれています。AudioSepモデルは、8つのTesla V100 GPUカードで1Mステップトレーニングされました。

AudioSepは、オーディオイベント分離、音楽楽器分離、音声強化などのタスクにおける能力を詳細に評価されました。オーディオキャプションやテキストラベルをクエリとして使用することで、強力な分離性能と印象的なゼロショット汎化能力を発揮し、以前のオーディオクエリや言語クエリによる音響分離モデルを大幅に上回りました。

研究者は、AudioSep-CLAPモデルを使用して、オーディオ混合物とグラウンドトゥルースのターゲット音源のスペクトログラムを視覚化し、さまざまな音源(例:オーディオイベント、声)のテキストクエリを使用して音源を分離しました。分離された音源のスペクトログラムパターンは、グラウンドトゥルース音源のものと類似しており、客観的な実験結果と一致していました。

彼らは、「テキストラベル」の代わりに「オリジナルキャプション」をテキストクエリとして使用することで、パフォーマンスが大幅に向上することを発見しました。これは、人間が注釈付けしたキャプションがオーディオイベントラベルよりも詳細で正確なソースの説明を提供するためです。再注釈されたキャプションの個人の性格や可変的な単語分布にもかかわらず、「再注釈されたキャプション」を使用した結果は「オリジナルキャプション」を使用した結果よりもやや劣っていましたが、「テキストラベル」を使用した結果よりも優れていました。これらの結果は、AudioSepの堅牢性と有望性を実証し、それに対して説明するものを分離するツールとなりました。

AudioSepの次のステップは、教師なし学習技術による分離、ビジョンクエリ分離、オーディオクエリ分離、スピーカー分離タスクへの現在の作業の拡張です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「AIガバナンスにおけるステークホルダー分析の包括的ガイド(パート2)」

「著者注:本記事はAIガバナンスにおけるステークホルダー分析の包括的なガイドのパート2として書かれていますパート1はこち...

人工知能

AIがあなたのように文章を書く方法(クロード2のチュートリアル)

「あなたはClaude 2の回答をChatGPTよりもずっと人間らしくすることができます」

データサイエンス

テキストから画像への革命:SegmindのSD-1Bモデルが最速のゲームで登場

紹介 Segmind AIは、画期的なオープンソースのテキストから画像への生成モデルであるSSD-1B(Segmind Stable Diffusion 1B)...

データサイエンス

「LangChain、Activeloop、およびDeepInfraを使用したTwitterアルゴリズムのリバースエンジニアリングのためのプレーンな英語ガイド」

このガイドでは、Twitterの推奨アルゴリズムを逆解析して、コードベースをより理解し、より良いコンテンツを作成するための洞...

AIニュース

Google Translateが同音異義語を認識する方法を教えた方法

Google Translateのニューラルモデルがベースとベースの違いを理解する方法

データサイエンス

「AI戦略にデータ管理を実装する方法」

データはAI戦略の核ですデータの品質、データの統合、データのガバナンスは、データを最も効果的に扱うための3つの主要な要素...