マイクロソフトのAIチームがNaturalSpeech 2を発表:強力なゼロショット音声合成と向上した感情表現のための潜在的拡散モデルを備えた最先端のTTSシステム

Microsoft AI team announces NaturalSpeech 2 cutting-edge TTS system with powerful zero-shot voice synthesis and improved emotional expression through latent diffusion model.

テキストから音声(TTS)の目標は、それがリアルな人が話したような高品質で多様な音声を生成することです。プロソディ、話者の身元(性別、アクセント、音質など)、話し方や歌い方など、すべてが人間の音声の豊かさに寄与しています。ニューラルネットワークと深層学習の進歩により、TTSシステムの理解可能性と自然さは大幅に向上しており、一部のシステム(NaturalSpeechなど)は、単一話者のレコーディングスタジオのベンチマークデータセットで人間並みの音声品質に達しています。

以前の話者制限型のレコーディングスタジオデータセットは、話者の身元、プロソディ、スタイルの多様性を捉えるのに十分ではありませんでした。しかし、フューショットまたはゼロショットの技術を使用することで、TTSモデルは大規模なコーパスでトレーニングされ、これらの違いを学習し、これらのトレーニングされたモデルを使用して無限の未知のシナリオに一般化することができます。連続的な音声波形を離散的なトークンに量子化し、これらのトークンを自己回帰言語モデルでモデリングすることは、現在の大規模TTSシステムでは一般的です。

マイクロソフトの新しい研究では、表現豊かなプロソディ、良好な回復性、そして何よりも強力なゼロショット容量を持つ音声合成のための潜在的な拡散モデルを使用するTTSシステムであるNaturalSpeech 2を紹介しています。研究者たちは、音声波形を一連の潜在ベクトルに変換するコーデックエンコーダと、元の波形を回復するためのコーデックデコーダを使用するニューラルオーディオコーデックをトレーニングすることから始めました。音素エンコーダ、長さ予測子、ピッチ予測子から以前のベクトルを取得した後、彼らはこの潜在ベクトルを構築するために拡散モデルを使用します。

以下は、彼らの論文で議論されているデザイン上の決定事項の例です:

  • 従来の方法では、音声は通常、神経コーデックの音声再構成の品質を保証するために多数の残余量子化器で量子化されます。これにより、結果として得られる離散トークンのシーケンスが非常に長くなり、音響モデル(自己回帰言語モデル)に大きな負担がかかります。代わりに、チームは連続ベクトルを使用しました。したがって、彼らは連続ベクトルを使用し、長さを短くし、粒度レベルで正確な音声再構成のためのより多くのデータを提供します。
  • 自己回帰モデルを拡散モデルに置き換える。
  • 拡散モデルとピッチ/長さ予測子でコンテキストで学習するための音声提示メカニズムを通じてコンテキストで学習する。チームは音声提示メカニズムを開発し、拡散モデルとピッチ/長さ予測子でコンテキストで学習を促進し、拡散モデルが音声提示の特性に従うようにすることでゼロショット容量を向上させました。
  • NaturalSpeech 2は、従来の自己回帰モデルよりも信頼性と安定性が高く、2段階のトークン予測ではなく、単一の音響モデル(拡散モデル)のみを必要とします。つまり、それは自身の長さ/ピッチ予測と非自己回帰生成を使用して、音声以外のスタイル(歌声など)に適用することができます。

これらのアーキテクチャの効果を示すために、研究者たちはNaturalSpeech 2を400Mのモデルパラメータと44K時間の音声データでトレーニングしました。その後、さまざまな話者の身元、プロソディ、スタイル(歌唱など)においてゼロショットのシナリオ(わずか数秒の音声提示のみ)で音声を作成するために使用しました。その結果、NaturalSpeech 2は実験で従来の強力なTTSシステムを上回り、ゼロショットの条件下で自然な音声を生成します。音声提示とグラウンドトゥルースの音声とより似たプロソディを実現します。また、LibriTTSとVCTKのテストセットにおいて、グラウンドトゥルースの音声と比較して、同等またはより高い自然さ(CMOSに関して)を実現します。実験結果は、短い歌唱提示または興味深いことに、音声提示のみで、新しい音質で歌声を生成することができることも示しています。これにより、真のゼロショットの歌声合成が可能になります。

将来、チームは一貫性モデルなどの効果的な方法を調査し、拡散モデルを高速化するための広範な話し方と歌唱声のトレーニングを調査し、より強力な混合話し方/歌唱能力を実現する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「CMUの研究者がBUTD-DETRを導入:言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能(AI)モデル」

画像内のすべての「オブジェクト」を見つけることは、コンピュータビジョンの基礎です。カテゴリの語彙を作成し、この語彙の...

AIテクノロジー

「最も価値のあるコードは、書くべきでないコードです」

伝統的なプログラミング言語のコーディングスキルは、AIが進化するにつれてますます重要ではなくなります私はコーディングな...

機械学習

「AIの潜在能力解放:クラウドGPUの台頭」

「クラウドGPU」とは、AIアプリケーションによる複雑な計算課題に対するスケーラブルでコスト効率の良い包括的なソリューショ...

AIニュース

Google Cloudがマッコーリー銀行のAIバンキング機能を強化するのを支援します

マッコーリーのバンキング&金融サービスグループは、人工知能(AI)と機械学習(ML)の力を結集し、銀行業界を変革するため...

データサイエンス

「NVIDIAの人工知能がOracle Cloud Marketplaceで利用可能に」

ジェネラティブAIモデルのトレーニングがさらに容易になりました。 NVIDIA DGX Cloud AIスーパーコンピューティングプラット...

AIニュース

「NotebookLMは12以上の新機能を追加します」

「アメリカで現在利用可能なNotebookLMには、読みやすくメモを取り、執筆プロジェクトを整理するための新機能が追加されまし...