UCLとGoogleの研究者が提案する「AudioSlots:オーディオドメインの盲目的なソース分離のためのスロット中心の生成モデル」

AudioSlots Slot-centered generative model for blind source separation in the audio domain proposed by researchers from UCL and Google.

最近、集合構造化データ上で動作するアーキテクチャにおけるニューラルネットワークの使用と、非構造化入力から集合構造化出力空間へのマッピングを学習することが注目されています。特に、ビジョン領域でのオブジェクトの識別と非教示的なオブジェクトの発見において、スロット中心型またはオブジェクト中心型のシステムがサポートされています。これらのオブジェクト中心型のアーキテクチャは、順列同変性の内在的な帰納バイアスを持つため、音声の分離に適しています。本論文では、これらのアーキテクチャからのキーコンセプトの応用を通じて、音声ソースを内部情報や混合プロセスに関する情報を持たずに混合音声信号から区別することを目的としています。

図1:アーキテクチャの概要:入力波形を切り取った後、スペクトログラムが作成されます。その後、ニューラルネットワークはスペクトログラムを順列不変なソース埋め込み(s1…n)のセットにエンコードし、それらをデコードして異なるソーススペクトログラムのコレクションを生成します。マッチングベースの順列不変損失関数は、グラウンドトゥルースのソーススペクトログラムを使用してパイプライン全体を監視します。

音の分離は、ソースの順序がランダムであるため、集合ベースの問題です。混合音声スペクトログラムから順序のない一連の別々のソーススペクトログラムへのマッピングが学習され、音の分離の課題は順列不変条件付き生成モデリング問題としてフレーム化されます。彼らの技術であるAudioSlotsを使用することで、音声は各ソースごとに異なる潜在変数に分割され、それらはソース固有のスペクトログラムを提供するためにデコードされます。これはTransformerアーキテクチャに基づくエンコーダーとデコーダー関数を使用して作成されます。これは順列同変性を持ち、ソースの潜在変数の順序に依存しない(「スロット」とも呼ばれる)ため、その独立性を保ちます。彼らは、このようなアーキテクチャの可能性を評価するために、マッチングベースの損失を使用してAudioSlotsをトレーニングし、混合音声入力から独立したソースを生成します。

ロンドン大学とGoogle Researchの研究者は、AudioSlotsというスロット中心の音声スペクトログラムの生成アーキテクチャを提案しています。彼らは、AudioSlotsが音声ソースの分離の問題に構造化生成モデルを利用する可能性を示しています。ただし、高周波特徴の再構築品質が低いなど、AudioSlotsの現在の実装にはいくつかの欠点があります。また、独立した音声ソースを監視する必要があります。これらの問題は解決できる可能性があると自信を持っており、さまざまな研究の可能性のいくつかを示唆しています。

彼らは、Libri2Mixからの簡単な2つのスピーカーボイス分離課題で彼らの手法を実演しています。スロット中心の生成モデルによる音の分離は有望ですが、いくつかの困難も伴います:提示されたモデルのバージョンでは、高周波詳細を生成することが難しく、独立して予測された音声チャンクを縫い合わせるためにヒューリスティックを使用し、トレーニングには依然としてグラウンドトゥルースの参照音声ソースが必要です。彼らの将来の研究では、研究で提供される潜在的なルートについて、これらの困難が克服される可能性があると楽観的です。ただし、彼らの結果は主にこのアイデアの概念実証として役立ちます。

この論文をチェックしてください。最新のAI研究ニュースやクールなAIプロジェクトなどを共有している22k+ ML SubRedditDiscordチャンネルEmailニュースレターに参加するのを忘れないでください。上記の記事に関する質問や見落としがあれば、お気軽に[email protected]までメールでお問い合わせください。

AI Tools Clubの100以上のAIツールをチェックアウト

この記事は、MarkTechPostで最初に表示されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AIニュース

「イデオグラムはテキストから画像への変換をどのように革新するのか? DALL-EやMidjourneyを超えるAIプラットフォームが文字を生成する」

人工知能(AI)は近年、著しい進歩を遂げており、テキストから画像を生成することが特に注目されています。トロントを拠点と...

AI研究

AIシステムは、構造設計のターゲットを満たす新しいタンパク質を生成することができます

これらの調整可能なタンパク質は、強靭性や柔軟性など、特定の機械的特性を持つ新しい材料を作成するために使用することがで...

機械学習

「テンソル量子化:語られなかった物語」

この記事の残りの部分では、具体的な例を用いて以下の質問に答えていきますスケール:浮動小数点範囲を量子化する際、通常、...

AI研究

NVIDIAのAI研究者は、オブジェクト周囲の狭いバンドにボリューメトリックレンダリングを制限することで、効率的にNeRFレンダリングを行うための人工知能アプローチを提案しています

ナビディアの研究者たちは、体積ベースと表面ベースのレンダリング間で効率的に移行するためのニューラル放射輝度場の定式化...

機械学習

このAIニュースレターはあなたが必要とするものです#76

今週、私たちはトランスフォーマーや大規模な言語モデル(LLM)の領域を超えた重要なAIの進展に焦点を当てました最近の新しい...

データサイエンス

学習トランスフォーマーコード第2部 - GPTを間近で観察

私のプロジェクトの第2部へようこそここでは、TinyStoriesデータセットとnanoGPTを使用して、トランスフォーマーとGPTベース...