ソニーの研究者がBigVSANを提案:GANベースのボコーダーでのスライシング対抗ネットワークによるオーディオ品質の革命化

Sony researchers propose BigVSAN Revolutionizing audio quality with slicing counter networks using GAN-based vocoders.

ニューラルネットワークの発展とそれに伴う人気の増加により、音声合成技術の大幅な改善がもたらされました。音声合成システムの大部分は、2段階の方法を使用しています。まず、メルスペクトログラムなどの入力テキストから中間表現を予測し、次にこの中間表現をオーディオ波形に変換します。最終的なステップであるボコーダーは、メルスペクトログラムからオーディオを生成するために重要です。

ボコーダーが生成する音声合成の品質向上には多くの努力が払われています。オートリグレッシブモデル、敵対的生成ネットワーク(GAN)ベースのモデル、フローベースのモデル、拡散ベースのモデルなど、深層生成モデルが高品質の波形を生成する可能性を示しています。これらの深層生成モデルは、一度に良質なサンプルの品質、バラエティ、および高速サンプリングを実現するための支援が必要ですが、ボコーダーの多様性は画像生成モデルほど重要ではありません。ボコーダーは特定のメルスペクトログラムに対応するオーディオを生成するために設計されており、GANは高品質なサンプルを迅速に生成できるため、強力で有用なツールです。

敵対的生成ネットワーク(GAN)の潜在能力は、リアルタイムよりも速く高品質のオーディオ波形を効果的に生成できることが、ボコーダーの分野で注目されています。ただし、GANベースのボコーダーの1つの問題は、本物と偽物のデータを区別するための最適な特徴空間の射影を頻繁に見つけるのが難しいことであり、これにより作成されるオーディオの全体的な品質に影響を与える可能性があります。

これらの問題に対処するため、ソニーAI、東京、日本、およびソニーグループ株式会社、東京、日本の研究者チームは、画像生成タスクの文脈で改良されたGANトレーニングフレームワークであるSlicing Adversarial Network(SAN)を検討しました。SANを使用して、本物と偽物のデータをよりよく区別するための最適な特徴空間の射影を見つけることが成功したことが示されています。チームは、SANがGANベースのボコーダーの効率を同様に向上させることができるかどうかを調査しました。そのために、彼らはボコーダーで人気のあるGANのバリアントである最小二乗GANの修正アプローチを提案しました。SANのために、この技術は最小二乗GANの損失関数を修正します。

チームは、一連のテストを通じて、SANフレームワークを少し調整して実装することで、BigVGANというよく知られたモデルを含むGANベースのボコーダーのパフォーマンスを向上させることを示しました。彼らのアプローチは、GANを用いたオーディオ波形合成の改善に関する研究の増加に貢献しています。チームは、このボコーダーをBigVSANと名付け、SANによって強化されたGANトレーニングフレームワークを搭載し、SOTAのBigVGANボコーダーを上回る能力を持つと述べています。

チームは、以下のように主な貢献をまとめています:

  1. ソフトモノトニゼーションスキーム:「ソフトモノトニゼーション」と呼ばれる手法を導入し、最小二乗GANを最小二乗SANに調整して特徴空間の射影を改善しました。
  1. パフォーマンス向上:SANと他の修正を実装することで、BigVGANを含むGANベースのボコーダーがより良いオーディオ結果を生成できることを示しました。
  1. チームはコードを公開し、再現性をサポートしています。これにより、他の研究者は実験を複製し、既存の研究に基づいて研究を進めることができ、オーディオ合成技術の協力と進歩を促進することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIおよび自動化により、2030年に存在しなくなるであろう6つのテクノロジージョブ」

「現在の進行方向に基づいて、バランスを保っているいくつかのテック系の職種をご紹介します」

AI研究

コーネル大学の研究者たちは、不連続処理を伴う量子化(QuIP)を導入しましたこれは、量子化が不連続な重みとヘシアン行列から利益を得るという洞察に基づく新しいAIの手法です

大規模言語モデル(LLM)によって、テキスト作成、フューショット学習、推論、タンパク質配列モデリングなどの領域で改善が可...

データサイエンス

アマゾンの研究者たちは、「HandsOff」という手法を紹介しましたこの手法は合成画像データの手動注釈を不要にするものです

機械学習(ML)モデルをコンピュータビジョンタスクに使用する際、ラベル付きのトレーニングデータに大いに依存しています。...

AI研究

このAI研究は、多モーダル大規模言語モデル(LLM)の言語生成能力を受け継ぐ大規模言語指示セグメンテーションアシスタントであるLISAを紹介しています

コーヒーを飲みたいと思った場合、ロボットに作ってもらうように指示することを想像してください。指示には「コーヒーのカッ...

データサイエンス

コンテンツモデレーションからゼロショット分類へ

もし、追加情報や文脈がない小さなテキストを分析し、自分自身のデータを定義するために最も妥当なラベルを取得したい場合、...

機械学習

マイクロソフトが「TypeChat」をリリース:型を使用して自然言語インターフェースを簡単に構築できるAIライブラリ

MicrosoftのTypeChatライブラリは、大規模な言語モデル(LLM)に基づいたタイプベースの自然言語インターフェースの作成を容...