韓国の研究者がVITS2を提案:自然さと効率性の向上のためのシングルステージのテキスト読み上げモデルにおける飛躍的な進歩

Korean researchers proposed VITS2 significant progress in a single-stage text-to-speech model for improved naturalness and efficiency.

この論文では、以前のモデルのさまざまな側面を改善することにより、より自然な音声を合成する単一ステージのテキストから音声へのモデルであるVITS2が紹介されています。このモデルは、不自然さの断続的な問題、計算効率、音素変換への依存性といった問題に取り組んでいます。提案手法は、自然さの向上、マルチスピーカーモデルにおける音声特性の類似性、トレーニングおよび推論効率を向上させます。

以前の研究では音素変換への強い依存度が大幅に低下し、完全なエンドツーエンドの単一ステージアプローチが可能になりました。

以前の手法:

2段階のパイプラインシステム:これらのシステムは、入力テキストから波形を生成するプロセスを2つの段階に分割しました。最初の段階は、入力テキストからメルスペクトログラムや言語特徴などの中間音声表現を生成しました。2番目の段階では、これらの中間表現に基づいて生の波形を生成しました。これらのシステムには、最初の段階から2番目の段階へのエラー伝播、メルスペクトログラムなどの人間によって定義された特徴への依存、中間特徴の生成に必要な計算などの制限がありました。

単一ステージのモデル:最近の研究では、入力テキストから直接波形を生成する単一ステージのモデルが積極的に探求されています。これらのモデルは、2段階のシステムを上回るだけでなく、人間の音声とほとんど区別できない高品質の音声を生成する能力も示しています。

J. Kim、J. Kong、J. Sonによるエンドツーエンドのテキストから音声への条件付き変分オートエンコーダによる敵対的学習は、単一ステージのテキストから音声への合成の分野での重要な先行研究でした。この以前の単一ステージアプローチは大きな成功を収めましたが、断続的な不自然さ、デュレーション予測の効率の低さ、複雑な入力形式、マルチスピーカーモデルにおける不十分な話者の類似性、トレーニングの遅さ、音素変換への強い依存性などの問題がありました。

本論文の主な貢献は、以前の単一ステージモデルで見つかった問題、特に上記の成功したモデルで言及された問題に取り組み、テキストから音声合成の品質と効率を向上させる改良を導入することです。

ディープニューラルネットワークベースのテキストから音声への変換は、大きな進歩を遂げています。連続的な波形への不連続なテキストの変換と、高品質の音声オーディオの確保が課題です。以前の解決策は、テキストから中間音声表現を生成し、それらの表現に基づいて生の波形を生成する2つの段階にプロセスを分割しました。単一ステージのモデルは積極的に研究され、2段階のシステムを上回っています。この論文では、以前の単一ステージモデルで見つかった問題に取り組むことを目指しています。

本論文では、デュレーション予測、正規化フローを持つ拡張変分オートエンコーダ、アライメントサーチ、話者条件付きテキストエンコーダの4つの領域で改善点が説明されています。敵対的学習を通じてトレーニングされた確率的なデュレーション予測器が提案されています。モノトニックアライメントサーチ(MAS)は、品質向上のための修正を加えたアライメントに使用されます。モデルは、長期依存関係を捉えるために正規化フローにTransformerブロックを導入します。話者条件付きテキストエンコーダは、各話者のさまざまな音声特性をより良く模倣するために設計されています。

LJ SpeechデータセットとVCTKデータセットで実験が行われました。モデルの入力として音素シーケンスと正規化されたテキストの両方が使用されました。ネットワークはAdamWオプティマイザを使用してトレーニングされ、トレーニングはNVIDIA V100 GPUで実施されました。合成音声の自然さを評価するためにクラウドソーシングされた平均意見スコア(MOS)テストが実施されました。提案手法は、以前のモデルと比較して合成音声の品質において大きな改善が示されました。提案手法の妥当性を検証するために削除研究が行われました。最後に、著者は実験、品質評価、計算速度の測定を通じて提案手法の妥当性を示しましたが、音声合成の分野にはまだ解決すべきさまざまな問題が存在し、彼らの研究が将来の研究の基盤となることを期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです

最近、大規模言語モデル(LLM)のゼロショットおよびフューショットの能力は大幅に向上し、100Bパラメータ以上を持つモデルは...

人工知能

「トップのローコード/ノーコードAIツール(2023年9月)」

低コードおよびノーコードのAIツールとプラットフォームの台頭により、機械学習を新たな方法で活用するアプリケーションが開...

データサイエンス

特定のタスクに最適に適合するニューラルネットワークを設計するためのメソッド

適切なビルディングブロックを使用することで、機械学習モデルは詐欺検知やスパムフィルタリングなどのタスクをより正確に実...

機械学習

このGoogleのAI論文は、さまざまなデバイスで大規模な拡散モデルを実行するために画期的なレイテンシー数値を集めるための一連の最適化を提示しています

モデルのサイズと推論ワークロードは、画像生成のための大規模な拡散モデルが一般的になったために急激に増加しています。リ...

AIニュース

「AppleとGoogle、ChatGPTを年間アプリに見落とす」

驚くべき事態の中、テックジャイアントのAppleとGoogleは通常のパターンから逸脱し、それぞれの「年間最優秀アプリ」を選びま...