ソニーの研究者がBigVSANを提案:GANベースのボコーダーでのスライシング対抗ネットワークによるオーディオ品質の革命化

Sony researchers propose BigVSAN Revolutionizing audio quality with slicing counter networks using GAN-based vocoders.

ニューラルネットワークの発展とそれに伴う人気の増加により、音声合成技術の大幅な改善がもたらされました。音声合成システムの大部分は、2段階の方法を使用しています。まず、メルスペクトログラムなどの入力テキストから中間表現を予測し、次にこの中間表現をオーディオ波形に変換します。最終的なステップであるボコーダーは、メルスペクトログラムからオーディオを生成するために重要です。

ボコーダーが生成する音声合成の品質向上には多くの努力が払われています。オートリグレッシブモデル、敵対的生成ネットワーク(GAN)ベースのモデル、フローベースのモデル、拡散ベースのモデルなど、深層生成モデルが高品質の波形を生成する可能性を示しています。これらの深層生成モデルは、一度に良質なサンプルの品質、バラエティ、および高速サンプリングを実現するための支援が必要ですが、ボコーダーの多様性は画像生成モデルほど重要ではありません。ボコーダーは特定のメルスペクトログラムに対応するオーディオを生成するために設計されており、GANは高品質なサンプルを迅速に生成できるため、強力で有用なツールです。

敵対的生成ネットワーク(GAN)の潜在能力は、リアルタイムよりも速く高品質のオーディオ波形を効果的に生成できることが、ボコーダーの分野で注目されています。ただし、GANベースのボコーダーの1つの問題は、本物と偽物のデータを区別するための最適な特徴空間の射影を頻繁に見つけるのが難しいことであり、これにより作成されるオーディオの全体的な品質に影響を与える可能性があります。

これらの問題に対処するため、ソニーAI、東京、日本、およびソニーグループ株式会社、東京、日本の研究者チームは、画像生成タスクの文脈で改良されたGANトレーニングフレームワークであるSlicing Adversarial Network(SAN)を検討しました。SANを使用して、本物と偽物のデータをよりよく区別するための最適な特徴空間の射影を見つけることが成功したことが示されています。チームは、SANがGANベースのボコーダーの効率を同様に向上させることができるかどうかを調査しました。そのために、彼らはボコーダーで人気のあるGANのバリアントである最小二乗GANの修正アプローチを提案しました。SANのために、この技術は最小二乗GANの損失関数を修正します。

チームは、一連のテストを通じて、SANフレームワークを少し調整して実装することで、BigVGANというよく知られたモデルを含むGANベースのボコーダーのパフォーマンスを向上させることを示しました。彼らのアプローチは、GANを用いたオーディオ波形合成の改善に関する研究の増加に貢献しています。チームは、このボコーダーをBigVSANと名付け、SANによって強化されたGANトレーニングフレームワークを搭載し、SOTAのBigVGANボコーダーを上回る能力を持つと述べています。

チームは、以下のように主な貢献をまとめています:

  1. ソフトモノトニゼーションスキーム:「ソフトモノトニゼーション」と呼ばれる手法を導入し、最小二乗GANを最小二乗SANに調整して特徴空間の射影を改善しました。
  1. パフォーマンス向上:SANと他の修正を実装することで、BigVGANを含むGANベースのボコーダーがより良いオーディオ結果を生成できることを示しました。
  1. チームはコードを公開し、再現性をサポートしています。これにより、他の研究者は実験を複製し、既存の研究に基づいて研究を進めることができ、オーディオ合成技術の協力と進歩を促進することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Javaアプリケーションのレイテンシー削減」

この記事では、大規模なプロダクションアプリケーションのメモリ解析に関連する課題と、それを乗り越える方法について取り上...

AIテクノロジー

「Langchainの使い方:ステップバイステップガイド」

LangChain(ラングチェーン)は、プログラマーが大きな言語モデルを使用してアプリケーションを開発するための人工知能フレー...

データサイエンス

「カオスから秩序へ:データクラスタリングを活用した意思決定の向上」

「オンラインストアは、購買パターン、購入日、年齢、収入などの要素に基づいて顧客をクラスタリングするために、この方法を...

AI研究

「拡散モデルの助けを借りて、画像間の補間を組み込むためのAI研究」についてのAI研究

人工知能は、開発者や研究者の間で最新の話題です。自然言語処理や自然言語理解からコンピュータビジョンまで、AIはほぼすべ...

AIニュース

「無人運転車は子供や肌の色の濃い人を見つけるのに苦労するかもしれません」

「科学者たちは、自動運転車の研究で使用される8つの人工知能ベースの歩行者検出器を評価し、それらが子供や肌の色の濃い人を...

人工知能

人工知能に投資するのですか? 考慮すべきポイントはこれです

「AIの取り組みに投資するためのすべての知識」