ソニーの研究者がBigVSANを提案:GANベースのボコーダーでのスライシング対抗ネットワークによるオーディオ品質の革命化

Sony researchers propose BigVSAN Revolutionizing audio quality with slicing counter networks using GAN-based vocoders.

ニューラルネットワークの発展とそれに伴う人気の増加により、音声合成技術の大幅な改善がもたらされました。音声合成システムの大部分は、2段階の方法を使用しています。まず、メルスペクトログラムなどの入力テキストから中間表現を予測し、次にこの中間表現をオーディオ波形に変換します。最終的なステップであるボコーダーは、メルスペクトログラムからオーディオを生成するために重要です。

ボコーダーが生成する音声合成の品質向上には多くの努力が払われています。オートリグレッシブモデル、敵対的生成ネットワーク(GAN)ベースのモデル、フローベースのモデル、拡散ベースのモデルなど、深層生成モデルが高品質の波形を生成する可能性を示しています。これらの深層生成モデルは、一度に良質なサンプルの品質、バラエティ、および高速サンプリングを実現するための支援が必要ですが、ボコーダーの多様性は画像生成モデルほど重要ではありません。ボコーダーは特定のメルスペクトログラムに対応するオーディオを生成するために設計されており、GANは高品質なサンプルを迅速に生成できるため、強力で有用なツールです。

敵対的生成ネットワーク(GAN)の潜在能力は、リアルタイムよりも速く高品質のオーディオ波形を効果的に生成できることが、ボコーダーの分野で注目されています。ただし、GANベースのボコーダーの1つの問題は、本物と偽物のデータを区別するための最適な特徴空間の射影を頻繁に見つけるのが難しいことであり、これにより作成されるオーディオの全体的な品質に影響を与える可能性があります。

これらの問題に対処するため、ソニーAI、東京、日本、およびソニーグループ株式会社、東京、日本の研究者チームは、画像生成タスクの文脈で改良されたGANトレーニングフレームワークであるSlicing Adversarial Network(SAN)を検討しました。SANを使用して、本物と偽物のデータをよりよく区別するための最適な特徴空間の射影を見つけることが成功したことが示されています。チームは、SANがGANベースのボコーダーの効率を同様に向上させることができるかどうかを調査しました。そのために、彼らはボコーダーで人気のあるGANのバリアントである最小二乗GANの修正アプローチを提案しました。SANのために、この技術は最小二乗GANの損失関数を修正します。

チームは、一連のテストを通じて、SANフレームワークを少し調整して実装することで、BigVGANというよく知られたモデルを含むGANベースのボコーダーのパフォーマンスを向上させることを示しました。彼らのアプローチは、GANを用いたオーディオ波形合成の改善に関する研究の増加に貢献しています。チームは、このボコーダーをBigVSANと名付け、SANによって強化されたGANトレーニングフレームワークを搭載し、SOTAのBigVGANボコーダーを上回る能力を持つと述べています。

チームは、以下のように主な貢献をまとめています:

  1. ソフトモノトニゼーションスキーム:「ソフトモノトニゼーション」と呼ばれる手法を導入し、最小二乗GANを最小二乗SANに調整して特徴空間の射影を改善しました。
  1. パフォーマンス向上:SANと他の修正を実装することで、BigVGANを含むGANベースのボコーダーがより良いオーディオ結果を生成できることを示しました。
  1. チームはコードを公開し、再現性をサポートしています。これにより、他の研究者は実験を複製し、既存の研究に基づいて研究を進めることができ、オーディオ合成技術の協力と進歩を促進することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

材料研究を革新するための機械学習の活用

素材科学の領域では、研究者は原子スケールで物質の複雑な振る舞いを解明するという大きな課題に直面しています。イネラステ...

機械学習

人間の理解と機械学習のギャップを埋める:説明可能なAIを解決策として

この記事は、説明可能なAI(XAI)の重要性、解釈可能なAIモデルを構築する上での課題、および企業がXAIモデルを構築するため...

AI研究

スタンフォードの研究者たちは、「EquivAct」というロボット学習における画期的な提案を行いましたこの提案は、異なる規模や方向でのタスクを一般化するためのものです

人間は、標準的なオブジェクトでタスクを完了する方法のわずかな例だけを与えられた場合でも、対象物の視覚的または物理的属...

機械学習

これをデジタルパペットにしてください:GenMMは、単一の例を使用して動きを合成できるAIモデルです

コンピュータ生成のアニメーションは、毎日より現実的になっています。この進歩は、ビデオゲームで最もよく見ることができま...

AI研究

UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです

最高のパフォーマンス精度を達成するためには、トレーニング中にエージェントが正しいまたは望ましいトラック上にあるかどう...

データサイエンス

「オンライン大規模な推薦のためのデュアル拡張二つのタワーモデル」

推薦システムは、ユーザーに個別にカスタマイズされた提案を提供するために設計されたアルゴリズムですこれらのシステムは、...