マイクロソフトの研究者がPromptTTS 2を発表:声の変動性と費用対効果の向上によるテキスト読み上げの革新
マイクロソフトの研究者がPromptTTS 2を発表
合成音声の理解度と自然さは、最近のテキスト読み上げシステムの進歩により向上しています。大規模なTTSシステムは、複数の話者の設定に対応するために作成され、一部のTTSシステムは単一の話者の録音と同等の品質に達しています。これらの進歩にもかかわらず、声の変動性をモデル化することはまだ困難です。同じフレーズを言う方法が異なる場合、感情やトーンなどの追加情報を伝えることができます。従来のTTS技術は、スピーカー情報や音声プロンプトに頼ることが多く、声の変動性をシミュレートするために使用されます。しかし、これらの技術はユーザーフレンドリーではありません。スピーカーIDが事前に定義されており、適切な音声プロンプトを見つけることが困難または存在しないためです。
声の変動性をモデル化するより有望なアプローチは、音声生成の意図を伝えるために自然言語を使用するテキストプロンプトを利用することです。この戦略により、テキストプロンプトを使用して簡単に声を作成することができます。テキストプロンプトに基づくTTSシステムは、通常、音声データセットとそれに対応するテキストプロンプトを使用してトレーニングされます。音声の変動性やスタイルを説明するテキストプロンプトを使用して、モデルが音声を生成する方法を制御します。
テキストプロンプトに基づくTTSシステムは、次の2つの主な課題に直面しています:
- AIモデルが高解像度のコンピュータビジョンを高速化します
- 「Apple製品に見つかった欠陥がスパイウェア感染を引き起こしました:研究者」
- 「プリンストンの研究者たちは、CoALA(コアラ)という概念的なAIフレームワークを提案していますこれにより、言語エージェントを体系的に理解し構築することが可能となります」
• 一対多の課題:声の品質は人によって異なるため、書かれた指示ではすべての音声の側面を正確に表現することは困難です。異なる音声サンプルは不可避的に同じプロンプトに関連付けられる場合があります。一対多の現象は、TTSモデルのトレーニングをより困難にし、過学習やモードの崩壊を引き起こす可能性があります。彼らの知る限り、テキストプロンプトに基づくTTSシステムにおいて一対多の問題を解決するために明示的に作成された手順は存在していません。
• データスケールの課題:テキストプロンプトはインターネット上では一般的ではないため、声を定義するテキストプロンプトのデータセットを作成することは容易ではありません。
その結果、ベンダーにテキストプロンプトを作成するために雇われることがあり、これは費用と時間のかかる作業です。プロンプトデータセットは通常小さく、またはプライベートであり、プロンプトベースのTTSシステムに関するさらなる研究を行うことが困難です。彼らの研究では、PromptTTS 2を提供し、プロンプトでは捉えることのできない音声の変動情報をモデル化するためのバリエーションネットワークの提案を行っています。大規模な言語モデルを使用して高品質のプロンプトを生成し、上記の課題に取り組んでいます。彼らはバリエーションネットワークを提案し、テキストプロンプトから音声の変動に関する欠落した情報を予測するためにトレーニングに参加する参照音声を使用します。
PromptTTS 2のTTSモデルは、テキストプロンプトエンコーダ、参照音声エンコーダ、テキストプロンプトエンコーダと参照音声エンコーダによって取得された表現に基づいて音声を合成するTTSモジュールから構成されます。テキストプロンプトエンコーダ3からの即時表現に基づいて、バリエーションネットワークは参照音声エンコーダからの参照表現を予測するためにトレーニングされます。テキストプロンプトに条件付けられたガウスノイズから多様な音声の変動性に関する情報を選択するために、バリエーションネットワーク内の拡散モデルを使用して合成音声の品質を変更することができます。
マイクロソフトの研究者は、音声理解モデルを使用して音声から声の特徴を認識し、大規模な言語モデルを使用して認識結果に基づいてテキストプロンプトを構築することで、音声のためのテキストプロンプトを自動的に作成するためのパイプラインを提案しています。具体的には、音声理解モデルを使用して、音声データセット内の各音声サンプルの属性値を識別し、さまざまな特徴から声を説明します。次に、これらのフレーズを組み合わせてテキストプロンプトを作成します。以前の研究では、ベンダーによるフレーズの構築と組み合わせに頼っていましたが、PromptTTS 2では、さまざまなタスクを人と同等のレベルで実行することが証明されている大規模な言語モデルを使用しています。
彼らは、優れたプロンプトを作成するためのLLMの指示を提供します。完全に自動化されたワークフローのおかげで、プロンプトの作成にはもはや人間の介入は必要ありません。以下は、この論文の貢献の要約です:
• テキストプロンプトに基づくTTSシステムにおける一対多の問題を解決するために、拡散モデルに基づくバリエーションネットワークを構築し、テキストプロンプトではカバーされていない音声の変動性を説明します。音声の変動性は、推論中にテキストプロンプトに条件付けられたガウスノイズからのサンプルを選択することによって管理することができます。
• テキストプロンプトの作成パイプラインと大規模な言語モデルによって生成されたテキストプロンプトデータセットを構築し、高品質なプロンプトを提供します。このパイプラインにより、ベンダーへの依存が軽減されます。
• 44000時間の音声データを使用して、彼らはPromptTTS 2を大規模な音声データセットでテストします。実験の結果、PromptTTS 2は、ガウスノイズからサンプリングすることで音声の変動を制限する一方で、テキストのプロンプトにより近い声を生成するという以前の研究を上回っています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「システムは光と電子を組み合わせて、より速く、より環境に優しいコンピューティングを実現します」
- ソニーの研究者がBigVSANを提案:GANベースのボコーダーでのスライシング対抗ネットワークによるオーディオ品質の革命化
- アップルとEquall AIによる新しいAI研究が、トランスフォーマーアーキテクチャの冗長性を明らかにします:フィードフォワードネットワークの最適化が効率と精度を向上させる方法
- コーネル大学とテルアビブ大学の研究者が、ドッペルゲンガーを紹介します:似た構造の画像を区別するための学習
- このAI研究は、DISC-MedLLMという包括的な解決策を提案し、大規模言語モデル(LLM)を活用して正確な医療応答を提供します
- 「ロボットがより良い判断をするにはどうすればよいのか?MITとStanfordの研究者が、高度なロボットの推論と計画のためのDiffusion-CCSPを紹介」
- マイクロソフトの研究者たちは、人間のフィードバックを用いた強化学習のためのメモリ効率の高い解決策であるHydra-RLHFを紹介しました