スタイルTTS 2 大規模スピーチ言語モデルを用いた人間レベルのテキスト音声変換

「スタイルTTS2：大規模スピーチ言語モデルを使った人間レベルのテキスト音声変換」というタイトルを改善します！

自然音声合成および合成音声合成手法の増加に伴い、AI産業が達成した主要な成果の一つは、過去数年間において潜在的な応用を持つテキスト音声合成フレームワークを効果的に合成することです。これには、オーディオブック、バーチャルアシスタント、ナレーションなど、さまざまな産業における応用が含まれます。最新のモードでは、様々な音声関連のタスクで人間レベルのパフォーマンスと効率を提供しています。しかし、その強力なパフォーマンスにもかかわらず、表現豊かで多様な音声、ゼロショットテキスト音声フレームワークを最適化するための大量のトレーニングデータの必要性、およびOOD（分布外）テキストに対する堅牢性など、タスクの改善余地がまだあります。これらの課題に対処するため、開発者はより堅牢でアクセス可能なテキスト音声フレームワークに取り組んでいます。

本記事では、StyleTTS-2について説明します。StyleTTS-2は、StyleTTSフレームワークを基礎にした堅牢で革新的なテキスト音声フレームワークであり、最先端のテキスト音声システムへの次のステップを提供することを目指しています。StyleTTS2フレームワークでは、音声スタイルを潜在的なランダム変数としてモデリングし、確率的な拡散モデルを使用してこれらの音声スタイルまたはランダム変数をサンプリングすることにより、参照音声入力を使用せずにリアルな音声を効果的に合成することができます。このアプローチにより、StyleTTS2フレームワークは、現行のテキスト音声フレームワークと比較してより良い結果を提供し、拡散モデルフレームワークが提供する多様な音声合成の利点を活用することができます。本記事では、StyleTTS2フレームワークについて詳しく説明し、フレームワークによって達成された結果についても紹介します。さあ、始めましょう。

テキスト音声合成のためのStyleTTS2：イントロダクション

StyleTTS2は、人間レベルのTTSフレームワーク構築に向けた次のステップを踏む革新的なテキスト音声合成モデルであり、StyleTTSというスタイルベースのテキスト音声生成モデルを基にしています。StyleTTS2フレームワークでは、音声スタイルを潜在的なランダム変数としてモデリングし、確率的な拡散モデルを使用してこれらの音声スタイルまたはランダム変数をサンプリングすることにより、参照音声入力を使用せずにリアルな音声を効果的に合成することができます。スタイルを潜在的なランダム変数としてモデリングすることは、StyleTTSフレームワークからStyleTTS2フレームワークを区別する要素であり、参照音声入力を必要とせずに入力テキストに最適な音声スタイルを生成し、拡散モデルが提供する多様な音声合成能力を活用することができます。さらに、StyleTTS2フレームワークは、WavLMフレームワークのような事前学習された大規模SLM（音声言語モデル）を識別子として使用し、独自の差分持続時間モデリング手法と組み合わせて、フレームワークをエンドツーエンドでトレーニングし、最終的に自然な音声を生成します。このアプローチにより、StyleTTS2フレームワークは、音声生成タスクで現行の最先端フレームワークを上回り、スピーカー適応タスクのゼロショット設定において大規模な音声モデルの事前トレーニングに対しても最も効率的なフレームワークの一つとなっています。

次に、人間レベルのテキスト音声合成を実現するために、StyleTTs2フレームワークは、音声合成のための拡散モデルや大規模音声言語モデルなど、既存の研究成果を取り入れています。拡散モデルは、音声制御の微細化と多様な音声サンプリング能力のために通常音声合成タスクに使用されます。しかし、拡散モデルはGANベースの反復フレームワークよりも効率的ではありません。その主な理由は、音声の目標持続時間に対して潜在表現、波形、およびメルスペクトログラムを反復的にサンプリングする必要があるためです。

一方、大規模音声言語モデルの最新の研究成果は、テキスト音声生成タスクの品質向上とスピーカーへの適応性の向上を示しています。大規模音声言語モデルは通常、事前学習された音声言語フレームワークから導かれた量子化されたまたは連続した表現にテキスト入力を変換します。ただし、これらの音声言語モデルの特徴は直接的な音声合成に最適化されていません。対照的に、StyleTTS2フレームワークは、潜在空間マップを使用せずに大規模SLMフレームワークが得た知識を活用し、敵対的なトレーニングを用いて音声言語モデルの特徴を合成し、音声合成に最適化された潜在空間を直接学習します。

StyleTTS2：アーキテクチャと方法論

StyleTTS2はその中心に、スタイルエンコーダを使用して参照オーディオからスタイルベクトルを抽出し、表現豊かで自然な音声生成を可能にする、非自己回帰的なテキスト音声合成フレームワークであるStyleTTSの前身であるStyleTTSフレームワークが構築されています。StyleTTSフレームワークで使用されるスタイルベクトルは、AdaIN（Adaptive Instance Normalization）を使用してエンコーダ、デュレーション、および予測子に直接統合されるため、StyleTTSモデルはプロソディ、デュレーション、さらには感情に変動がある音声を生成することができます。StyleTTSフレームワークは、合計8つのモデルで構成され、3つのカテゴリに分けられています。

スタイルエンコーダ、テキストエンコーダ、音声デコーダを備えたアコースティックモデルまたは音声生成システム。
プロソディとデュレーションの予測子を使用したテキスト音声合成システム。
テキストアライナー、ピッチ抽出器、トレーニング目的の判別器を含むユーティリティシステム。

このアプローチにより、StyleTTSフレームワークは制御可能で多様な音声合成に関連する最新のパフォーマンスを提供します。ただし、このパフォーマンスには、サンプル品質の低下、表現の制約、およびリアルタイムでの音声障害アプリケーションへの依存などの欠点があります。

StyleTTSフレームワークを改良したStyleTTS2モデルは、改善された多様性のある音声調整タスク、および高い人間レベルの品質を持つ、アウトオブディストリビューションパフォーマンスに結果をもたらします。StyleTTS2フレームワークは、散逸モデルを介してラテント変数として音声スタイルをモデリングし、参照オーディオを使用せずに多様な音声サンプルを生成するためにその変数をサンプリングするという点で、StyleTTSフレームワークとは異なります。これらのコンポーネントについて詳しく見ていきましょう。

干渉に対するエンドツーエンドトレーニング

StyleTTS2フレームワークでは、固定されたコンポーネントに依存せずに、さまざまなテキスト音声コンポーネントを干渉するためにエンドツーエンドトレーニングアプローチが使用されます。StyleTTS2フレームワークは、デコーダを変更して、ウェーブフォームをスタイルベクトル、ピッチ＆エネルギーカーブ、およびアライメントされた表現から直接生成するようにします。フレームワークは、デコーダの最後の投影層を削除し、ウェーブフォームデコーダに置き換えます。StyleTTS2フレームワークは2つのエンコーダを使用します：ウェーブフォームを直接生成するためのHifiGANベースのデコーダ、およびより高速な干渉とトレーニングのために位相と振幅を生成するiSTFTベースのデコーダ。

上の図は、事前トレーニングおよびジョイントトレーニングに使用されるアコースティックモデルを表しています。トレーニング時間を短縮するために、モジュールはまず事前トレーニングフェーズで最適化され、その後ジョイントトレーニングではピッチ抽出器を除くすべてのコンポーネントの最適化が行われます。ジョイントトレーニングでピッチ抽出器を最適化しない理由は、ピッチカーブのための正解データを提供するために使用されるからです。

上の図は、事前調整されていないWavLMフレームワークによる音声言語モデルの敵対的トレーニングと干渉を表しています。このプロセスは、異なる入力テキストを取ることができますが、各バッチで勾配を蓄積してパラメータを更新します。

スタイル拡散

StyleTTS2フレームワークは、音声を条件付き分布としてモデリングすることを目指しており、この変数は一般化された音声スタイルと呼ばれます。この変数は、音声サンプルの語彙的ストレス、プロソディ、話速、さらにはフォーマントの遷移などの範囲を超えた任意の特性を表します。

音声言語モデルディスクリミネーター

音声言語モデルは、幅広いセマンティクスとアコースティックアスペクトに関する貴重な情報をエンコードする一般的な能力で知られており、SLM表現は従来、人間の認識を模倣して生成された合成音声の品質を評価する能力を持っていました。StyleTTS2フレームワークは、SLMエンコーダが生成的なタスクを実行する能力を利用するために敵対的トレーニングアプローチを使用し、判別器として12層のWavLMフレームワークを使用します。このアプローチにより、フレームワークは性能を向上させるのに役立つOOD（分布外）テキストでのトレーニングを可能にします。さらに、過学習の問題を防ぐために、フレームワークはOODテキストと内部分布を等しい確率でサンプリングします。

Differentiable Duration Modeling

従来、テキスト音声フレームワークでは、音素の長さを生成するために通常、期間予測モデルが使用されます。ただし、これらの期間予測モデルによって使用されるアップサンプリング方法は、E2Eトレーニングプロセス中に勾配のフローをブロックすることがよくあります。NaturalSpeechフレームワークでは、人間レベルのテキスト音声変換のためにアテンションベースのアップサンプラーが使用されています。しかし、StyleTTS2フレームワークは、このアプローチが敵対的トレーニング中に不安定であると考えています。なぜなら、StyleTTS2は、長さの不一致による余分な項の損失を計算せずに、異なる可能な学習データと非パラメトリックなアップサンプリングを使用してトレーニングするからです。ソフトなダイナミックタイムワーピングアプローチを使用することで、この不一致を軽減することができますが、これを使用することは計算コストが高く、敵対的な目的やメル再構築タスクとの連携時に安定性の問題もあります。したがって、敵対的トレーニングにおいて人間レベルのパフォーマンスを達成し、トレーニングプロセスを安定化させるために、StyleTTC2フレームワークは非パラメトリックなアップサンプリングアプローチを使用します。ガウスアップサンプリングは、予測された期間を変換するための人気のある非パラメトリックなアップサンプリング手法ですが、事前に決定されたガウスカーネルの固定された長さによる制約があります。ガウシアンアップサンプリングのこの制約により、異なる長さのアラインメントの正確なモデル化能力が制限されます。

この制約に対処するため、StyleTTC2フレームワークは、追加のトレーニングなしで、アラインメントの長さのバリエーションを考慮する新しい非パラメトリックなアップサンプリングアプローチを提案しています。StyleTTC2フレームワークでは、各音素に対してアラインメントをランダム変数としてモデル化し、音声フレームのインデックスを示します。

モデルのトレーニングと評価

StyleTTC2フレームワークは、3つのデータセットでトレーニングおよび実験が行われます：VCTK、LibriTTS、およびLJSpeech。StyleTTS2フレームワークの単一話者コンポーネントは、LJSpeechデータセットを使用してトレーニングされます。LJSpeechデータセットには、約13,000以上のオーディオサンプルが含まれており、12,500のトレーニングサンプル、100の検証サンプル、および約500のテストサンプルに分割されています。それらの合計実行時間は約24時間です。フレームワークのマルチ話者コンポーネントは、VCTKデータセットでトレーニングされます。VCTKデータセットには、さまざまなアクセントを持つ100人以上の個別のネイティブスピーカーが参加しており、43,500のトレーニングサンプル、100の検証サンプル、および約500のテストサンプルに分割されています。最後に、フレームワークにゼロショット適応能力を備えさせるために、LibriTTSデータセットを組み込んでトレーニングされます。LibriTTSデータセットは、1,150以上の個々のスピーカーを持つ約250時間のオーディオクリップから成っています。モデルのパフォーマンスを評価するために、モデルは2つの評価指標、つまり「MOS-N」（自然さの意見の平均スコア）および「MOS-S」（類似性の意見の平均スコア）を使用します。

結果

StyleTTS2フレームワークで使用されるアプローチと方法論は、モデルが特にNaturalSpeechデータセットにおいていくつかの最先端のTTSフレームワークに勝るパフォーマンスを発揮していることを示しています。また、StyleTTS2フレームワークは、VCTKデータセットにおいて最先端のVITSフレームワークを上回ります。その結果は、以下の図で示されています。

StyleTTS2モデルは、LJSpeechデータセットでも以前のモデルよりも優れたパフォーマンスを発揮し、同じ評価基準でも先行研究のフレームワークがOOD（ドメイン外）または分布外のテキストにおいて品質の低下を示さないことを示しています。さらに、ゼロショット設定では、StyleTTC2モデルは自然性の点で既存のVall-Eフレームワークを上回りますが、類似性の点では劣ります。ただし、StyleTTS2フレームワークは、Vall-Eの60,000時間以上のトレーニングに比べて、わずか245時間のオーディオサンプルで競争力のあるパフォーマンスを発揮できることに注目する価値があります。これは、Vall-Eで使用されるような既存の大規模事前学習方法に対するデータ効率の高い代替手段であることを証明しています。

さらに、感情ラベル付きオーディオテキストデータの不足から、StyleTTC2フレームワークはGPT-4モデルを使用して、さまざまな感情にわたる500以上のインスタンスを生成し、フレームワークが作成したスタイルベクトルの視覚化に使用します。diffusionプロセス。

最初の図では、LJSpeechモデルのスタイルベクトルによって入力テキスト感情に対する感情スタイルが示され、StyleTTS2フレームワークがさまざまな感情を持った表現豊かな音声を合成する能力が示されています。2番目の図は、5人の個別のスピーカーごとに異なるクラスターが形成されることを示しており、単一のオーディオファイルから得られる多様性の幅広さを表しています。最後の図では、スピーカー1の感情の緩やかなクラスターが示され、いくつかの重なりがあるものの、感情に基づくクラスターが主要であることが明らかになります。したがって、参照オーディオサンプルと入力トーンに関係なく、話者の感情の調整が可能であることを示しています。拡散ベースのアプローチを使用しているにもかかわらず、StyleTTS2フレームワークはVITS、ProDiff、FastDiffなどの既存の最新フレームワークを凌駕しています。

最終的な考え

この記事では、StyleTTS2という画期的で強力なテキスト音声フレームワークについて話しました。このフレームワークはStyleTTSフレームワークの基礎に構築されており、最先端のテキスト音声システムに向けた次のステップを提示することを目指しています。StyleTTS2フレームワークは音声スタイルを潜在的なランダム変数としてモデル化し、これらの音声スタイルまたはランダム変数をサンプリングするために確率的拡散モデルを使用することで、参照オーディオ入力を使用せずに効果的に現実的な音声を合成することが可能です。StyleTTS2フレームワークはスタイル拡散とSLMディスクリミネーターを使用して、テキスト音声タスクで人間レベルの性能を達成し、幅広い範囲の音声タスクで既存の最先端フレームワークを凌駕します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

StyleTTS

Was this article helpful?

93 out of 132 found this helpful

スタイルTTS 2 大規模スピーチ言語モデルを用いた人間レベルのテキスト音声変換

テキスト音声合成のためのStyleTTS2：イントロダクション

StyleTTS2：アーキテクチャと方法論

干渉に対するエンドツーエンドトレーニング

スタイル拡散

音声言語モデルディスクリミネーター

Differentiable Duration Modeling

モデルのトレーニングと評価

結果

最終的な考え

Was this article helpful?

クラウドソーシングされたフィードバックは、ロボットの訓練に役立ちます

「光子チップ ‘レゴのようにはめ込む’」

機械学習

自己対戦を通じて単純なゲームをマスターするエージェントのトレーニング

「トランスフォーマーはNFLプレーを生成できます：QB-GPTの紹介」

「ジェンAIの時代：新たな始まり」

JavaScriptを使用してOracleデータベース内からHugging Face AIを呼び出す方法

「新しいHADARベースのイメージングツールにより、暗闇でもクリアに見ることができます」

「トップ5のAIウェブスクレイピングプラットフォーム」