ソニーの研究者がBigVSANを提案:GANベースのボコーダーでのスライシング対抗ネットワークによるオーディオ品質の革命化

Sony researchers propose BigVSAN Revolutionizing audio quality with slicing counter networks using GAN-based vocoders.

ニューラルネットワークの発展とそれに伴う人気の増加により、音声合成技術の大幅な改善がもたらされました。音声合成システムの大部分は、2段階の方法を使用しています。まず、メルスペクトログラムなどの入力テキストから中間表現を予測し、次にこの中間表現をオーディオ波形に変換します。最終的なステップであるボコーダーは、メルスペクトログラムからオーディオを生成するために重要です。

ボコーダーが生成する音声合成の品質向上には多くの努力が払われています。オートリグレッシブモデル、敵対的生成ネットワーク(GAN)ベースのモデル、フローベースのモデル、拡散ベースのモデルなど、深層生成モデルが高品質の波形を生成する可能性を示しています。これらの深層生成モデルは、一度に良質なサンプルの品質、バラエティ、および高速サンプリングを実現するための支援が必要ですが、ボコーダーの多様性は画像生成モデルほど重要ではありません。ボコーダーは特定のメルスペクトログラムに対応するオーディオを生成するために設計されており、GANは高品質なサンプルを迅速に生成できるため、強力で有用なツールです。

敵対的生成ネットワーク(GAN)の潜在能力は、リアルタイムよりも速く高品質のオーディオ波形を効果的に生成できることが、ボコーダーの分野で注目されています。ただし、GANベースのボコーダーの1つの問題は、本物と偽物のデータを区別するための最適な特徴空間の射影を頻繁に見つけるのが難しいことであり、これにより作成されるオーディオの全体的な品質に影響を与える可能性があります。

これらの問題に対処するため、ソニーAI、東京、日本、およびソニーグループ株式会社、東京、日本の研究者チームは、画像生成タスクの文脈で改良されたGANトレーニングフレームワークであるSlicing Adversarial Network(SAN)を検討しました。SANを使用して、本物と偽物のデータをよりよく区別するための最適な特徴空間の射影を見つけることが成功したことが示されています。チームは、SANがGANベースのボコーダーの効率を同様に向上させることができるかどうかを調査しました。そのために、彼らはボコーダーで人気のあるGANのバリアントである最小二乗GANの修正アプローチを提案しました。SANのために、この技術は最小二乗GANの損失関数を修正します。

チームは、一連のテストを通じて、SANフレームワークを少し調整して実装することで、BigVGANというよく知られたモデルを含むGANベースのボコーダーのパフォーマンスを向上させることを示しました。彼らのアプローチは、GANを用いたオーディオ波形合成の改善に関する研究の増加に貢献しています。チームは、このボコーダーをBigVSANと名付け、SANによって強化されたGANトレーニングフレームワークを搭載し、SOTAのBigVGANボコーダーを上回る能力を持つと述べています。

チームは、以下のように主な貢献をまとめています:

  1. ソフトモノトニゼーションスキーム:「ソフトモノトニゼーション」と呼ばれる手法を導入し、最小二乗GANを最小二乗SANに調整して特徴空間の射影を改善しました。
  1. パフォーマンス向上:SANと他の修正を実装することで、BigVGANを含むGANベースのボコーダーがより良いオーディオ結果を生成できることを示しました。
  1. チームはコードを公開し、再現性をサポートしています。これにより、他の研究者は実験を複製し、既存の研究に基づいて研究を進めることができ、オーディオ合成技術の協力と進歩を促進することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

ペンシルベニア大学の研究者たちは、腎臓のマッチングを改善し、移植片の失敗リスクを減らすための機械学習戦略の開発を行っています

AIは、遺伝子の特定の変異を分析することにより、腎移植のリスクを最小化することで、人々に希望の光をもたらしています。腎...

人工知能

「AIシステムの賢さをどのように知るのか?」

「AIの伝統として、人間の知能を評価するためにシステムにテストを行うことがありますが、GPT-4の人間レベルの知能の証拠とし...

人工知能

「ニューロンの多様性を受け入れる:AIの効率と性能の飛躍」

多様性の役割は、生物学から社会学まで、さまざまな分野で議論の対象となってきましたしかし、ノースカロライナ州立大学の非...

機械学習

「ステーブル拡散」は実際にどのように機能するのでしょうか?直感的な説明

この短い記事では、初心者に対して安定した拡散(Stable Diffusion)が直感的にどのように機能するかを説明していますこれは...

AI研究

新しいモデルが、薬剤探索を加速する方法を提供します

言語モデルをタンパク質-薬物相互作用に適用することで、研究者は大量の潜在的な薬剤化合物を迅速にスクリーニングすることが...