マイクロソフトの研究者がPromptTTS 2を発表:声の変動性と費用対効果の向上によるテキスト読み上げの革新

マイクロソフトの研究者がPromptTTS 2を発表

合成音声の理解度と自然さは、最近のテキスト読み上げシステムの進歩により向上しています。大規模なTTSシステムは、複数の話者の設定に対応するために作成され、一部のTTSシステムは単一の話者の録音と同等の品質に達しています。これらの進歩にもかかわらず、声の変動性をモデル化することはまだ困難です。同じフレーズを言う方法が異なる場合、感情やトーンなどの追加情報を伝えることができます。従来のTTS技術は、スピーカー情報や音声プロンプトに頼ることが多く、声の変動性をシミュレートするために使用されます。しかし、これらの技術はユーザーフレンドリーではありません。スピーカーIDが事前に定義されており、適切な音声プロンプトを見つけることが困難または存在しないためです。

声の変動性をモデル化するより有望なアプローチは、音声生成の意図を伝えるために自然言語を使用するテキストプロンプトを利用することです。この戦略により、テキストプロンプトを使用して簡単に声を作成することができます。テキストプロンプトに基づくTTSシステムは、通常、音声データセットとそれに対応するテキストプロンプトを使用してトレーニングされます。音声の変動性やスタイルを説明するテキストプロンプトを使用して、モデルが音声を生成する方法を制御します。

テキストプロンプトに基づくTTSシステムは、次の2つの主な課題に直面しています:

一対多の課題:声の品質は人によって異なるため、書かれた指示ではすべての音声の側面を正確に表現することは困難です。異なる音声サンプルは不可避的に同じプロンプトに関連付けられる場合があります。一対多の現象は、TTSモデルのトレーニングをより困難にし、過学習やモードの崩壊を引き起こす可能性があります。彼らの知る限り、テキストプロンプトに基づくTTSシステムにおいて一対多の問題を解決するために明示的に作成された手順は存在していません。

データスケールの課題:テキストプロンプトはインターネット上では一般的ではないため、声を定義するテキストプロンプトのデータセットを作成することは容易ではありません。

その結果、ベンダーにテキストプロンプトを作成するために雇われることがあり、これは費用と時間のかかる作業です。プロンプトデータセットは通常小さく、またはプライベートであり、プロンプトベースのTTSシステムに関するさらなる研究を行うことが困難です。彼らの研究では、PromptTTS 2を提供し、プロンプトでは捉えることのできない音声の変動情報をモデル化するためのバリエーションネットワークの提案を行っています。大規模な言語モデルを使用して高品質のプロンプトを生成し、上記の課題に取り組んでいます。彼らはバリエーションネットワークを提案し、テキストプロンプトから音声の変動に関する欠落した情報を予測するためにトレーニングに参加する参照音声を使用します。

PromptTTS 2のTTSモデルは、テキストプロンプトエンコーダ、参照音声エンコーダ、テキストプロンプトエンコーダと参照音声エンコーダによって取得された表現に基づいて音声を合成するTTSモジュールから構成されます。テキストプロンプトエンコーダ3からの即時表現に基づいて、バリエーションネットワークは参照音声エンコーダからの参照表現を予測するためにトレーニングされます。テキストプロンプトに条件付けられたガウスノイズから多様な音声の変動性に関する情報を選択するために、バリエーションネットワーク内の拡散モデルを使用して合成音声の品質を変更することができます。

マイクロソフトの研究者は、音声理解モデルを使用して音声から声の特徴を認識し、大規模な言語モデルを使用して認識結果に基づいてテキストプロンプトを構築することで、音声のためのテキストプロンプトを自動的に作成するためのパイプラインを提案しています。具体的には、音声理解モデルを使用して、音声データセット内の各音声サンプルの属性値を識別し、さまざまな特徴から声を説明します。次に、これらのフレーズを組み合わせてテキストプロンプトを作成します。以前の研究では、ベンダーによるフレーズの構築と組み合わせに頼っていましたが、PromptTTS 2では、さまざまなタスクを人と同等のレベルで実行することが証明されている大規模な言語モデルを使用しています。

彼らは、優れたプロンプトを作成するためのLLMの指示を提供します。完全に自動化されたワークフローのおかげで、プロンプトの作成にはもはや人間の介入は必要ありません。以下は、この論文の貢献の要約です:

• テキストプロンプトに基づくTTSシステムにおける一対多の問題を解決するために、拡散モデルに基づくバリエーションネットワークを構築し、テキストプロンプトではカバーされていない音声の変動性を説明します。音声の変動性は、推論中にテキストプロンプトに条件付けられたガウスノイズからのサンプルを選択することによって管理することができます。

• テキストプロンプトの作成パイプラインと大規模な言語モデルによって生成されたテキストプロンプトデータセットを構築し、高品質なプロンプトを提供します。このパイプラインにより、ベンダーへの依存が軽減されます。

• 44000時間の音声データを使用して、彼らはPromptTTS 2を大規模な音声データセットでテストします。実験の結果、PromptTTS 2は、ガウスノイズからサンプリングすることで音声の変動を制限する一方で、テキストのプロンプトにより近い声を生成するという以前の研究を上回っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文は、深層学習を用いて大規模な記録の神経活動を解読する人工知能フレームワーク、POYO-1を紹介しています

ジョージア工科大学、Mila、モントリオール大学、マギル大学の研究者らは、多様な大規模な神経記録を横断的にモデリングする...

機械学習

専門AIトレーニングの変革- LMFlowの紹介:優れたパフォーマンスのために大規模な基盤モデルを効率的に微調整し、個別化するための有望なツールキット

大規模言語モデル(LLMs)は、大規模な基盤モデルの上に構築されており、以前は不可能だったさまざまなタスクを実行する一般...

データサイエンス

倉庫業務の変革:AIと自動化の力を活用する

グローバルな供給チェーンの進化に伴い、顧客の要求に応える倉庫の役割がますます重要になってきています

AIニュース

「イデオグラムはテキストから画像への変換をどのように革新するのか? DALL-EやMidjourneyを超えるAIプラットフォームが文字を生成する」

人工知能(AI)は近年、著しい進歩を遂げており、テキストから画像を生成することが特に注目されています。トロントを拠点と...

データサイエンス

「部分情報分解とは何か、そして特徴がどのように相互作用するのか」

ターゲット変数が複数の情報源に影響を受ける場合、各情報源が全体的な情報にどのように寄与しているかを理解することは重要...

機械学習

このAI論文は、'リラックス:エンドツーエンドの動的機械学習ワークロードの最適化のためのコンパイラの抽象化'を紹介しています

動的な形状を持つ機械学習モデルの最適化は、より優れたパフォーマンスと柔軟性を実現するために重要です。動的な形状とは、...