ソニーの研究者がBigVSANを提案:GANベースのボコーダーでのスライシング対抗ネットワークによるオーディオ品質の革命化

Sony researchers propose BigVSAN Revolutionizing audio quality with slicing counter networks using GAN-based vocoders.

ニューラルネットワークの発展とそれに伴う人気の増加により、音声合成技術の大幅な改善がもたらされました。音声合成システムの大部分は、2段階の方法を使用しています。まず、メルスペクトログラムなどの入力テキストから中間表現を予測し、次にこの中間表現をオーディオ波形に変換します。最終的なステップであるボコーダーは、メルスペクトログラムからオーディオを生成するために重要です。

ボコーダーが生成する音声合成の品質向上には多くの努力が払われています。オートリグレッシブモデル、敵対的生成ネットワーク(GAN)ベースのモデル、フローベースのモデル、拡散ベースのモデルなど、深層生成モデルが高品質の波形を生成する可能性を示しています。これらの深層生成モデルは、一度に良質なサンプルの品質、バラエティ、および高速サンプリングを実現するための支援が必要ですが、ボコーダーの多様性は画像生成モデルほど重要ではありません。ボコーダーは特定のメルスペクトログラムに対応するオーディオを生成するために設計されており、GANは高品質なサンプルを迅速に生成できるため、強力で有用なツールです。

敵対的生成ネットワーク(GAN)の潜在能力は、リアルタイムよりも速く高品質のオーディオ波形を効果的に生成できることが、ボコーダーの分野で注目されています。ただし、GANベースのボコーダーの1つの問題は、本物と偽物のデータを区別するための最適な特徴空間の射影を頻繁に見つけるのが難しいことであり、これにより作成されるオーディオの全体的な品質に影響を与える可能性があります。

これらの問題に対処するため、ソニーAI、東京、日本、およびソニーグループ株式会社、東京、日本の研究者チームは、画像生成タスクの文脈で改良されたGANトレーニングフレームワークであるSlicing Adversarial Network(SAN)を検討しました。SANを使用して、本物と偽物のデータをよりよく区別するための最適な特徴空間の射影を見つけることが成功したことが示されています。チームは、SANがGANベースのボコーダーの効率を同様に向上させることができるかどうかを調査しました。そのために、彼らはボコーダーで人気のあるGANのバリアントである最小二乗GANの修正アプローチを提案しました。SANのために、この技術は最小二乗GANの損失関数を修正します。

チームは、一連のテストを通じて、SANフレームワークを少し調整して実装することで、BigVGANというよく知られたモデルを含むGANベースのボコーダーのパフォーマンスを向上させることを示しました。彼らのアプローチは、GANを用いたオーディオ波形合成の改善に関する研究の増加に貢献しています。チームは、このボコーダーをBigVSANと名付け、SANによって強化されたGANトレーニングフレームワークを搭載し、SOTAのBigVGANボコーダーを上回る能力を持つと述べています。

チームは、以下のように主な貢献をまとめています:

  1. ソフトモノトニゼーションスキーム:「ソフトモノトニゼーション」と呼ばれる手法を導入し、最小二乗GANを最小二乗SANに調整して特徴空間の射影を改善しました。
  1. パフォーマンス向上:SANと他の修正を実装することで、BigVGANを含むGANベースのボコーダーがより良いオーディオ結果を生成できることを示しました。
  1. チームはコードを公開し、再現性をサポートしています。これにより、他の研究者は実験を複製し、既存の研究に基づいて研究を進めることができ、オーディオ合成技術の協力と進歩を促進することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか?Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」

大規模な言語モデル(LLM)であるChatGPTやGPT-4は、いくつかのベンチマークでより優れたパフォーマンスを示していますが、MM...

データサイエンス

「MLOpsは過学習していますその理由をここで説明します」

「MLは、独自のDevOpsアプローチとそれにマッチするインフラストラクチャを必要とするユニークなプラクティスですか? MLOps...

データサイエンス

「Meta AIは、社会的な具現化されたAIエージェントの開発における3つの主要な進展、Habitat 3.0、Habitat Synthetic Scenes Dataset、およびHomeRobotを紹介します」

Facebook AI Research (FAIR)は、社会的にインテリジェントなロボットの分野を推進することに専念しています。主な目標は、日...

機械学習

量子AI:量子コンピューティングの潜在能力を機械学習で解き明かす

この記事では、量子機械学習について、現在の課題、機会、評価、成熟度、およびタイムリーさについて、読者がより詳しく学ぶ...

データサイエンス

「AIがキーストロークを聞く:新たなデータセキュリティの脅威」

ロンドン大学、ダラム大学、サリー大学の研究者によって開発された画期的なAIシステムは、データセキュリティの懸念を新たな...