マイクロソフトのAIチームがNaturalSpeech 2を発表:強力なゼロショット音声合成と向上した感情表現のための潜在的拡散モデルを備えた最先端のTTSシステム

Microsoft AI team announces NaturalSpeech 2 cutting-edge TTS system with powerful zero-shot voice synthesis and improved emotional expression through latent diffusion model.

テキストから音声(TTS)の目標は、それがリアルな人が話したような高品質で多様な音声を生成することです。プロソディ、話者の身元(性別、アクセント、音質など)、話し方や歌い方など、すべてが人間の音声の豊かさに寄与しています。ニューラルネットワークと深層学習の進歩により、TTSシステムの理解可能性と自然さは大幅に向上しており、一部のシステム(NaturalSpeechなど)は、単一話者のレコーディングスタジオのベンチマークデータセットで人間並みの音声品質に達しています。

以前の話者制限型のレコーディングスタジオデータセットは、話者の身元、プロソディ、スタイルの多様性を捉えるのに十分ではありませんでした。しかし、フューショットまたはゼロショットの技術を使用することで、TTSモデルは大規模なコーパスでトレーニングされ、これらの違いを学習し、これらのトレーニングされたモデルを使用して無限の未知のシナリオに一般化することができます。連続的な音声波形を離散的なトークンに量子化し、これらのトークンを自己回帰言語モデルでモデリングすることは、現在の大規模TTSシステムでは一般的です。

マイクロソフトの新しい研究では、表現豊かなプロソディ、良好な回復性、そして何よりも強力なゼロショット容量を持つ音声合成のための潜在的な拡散モデルを使用するTTSシステムであるNaturalSpeech 2を紹介しています。研究者たちは、音声波形を一連の潜在ベクトルに変換するコーデックエンコーダと、元の波形を回復するためのコーデックデコーダを使用するニューラルオーディオコーデックをトレーニングすることから始めました。音素エンコーダ、長さ予測子、ピッチ予測子から以前のベクトルを取得した後、彼らはこの潜在ベクトルを構築するために拡散モデルを使用します。

以下は、彼らの論文で議論されているデザイン上の決定事項の例です:

  • 従来の方法では、音声は通常、神経コーデックの音声再構成の品質を保証するために多数の残余量子化器で量子化されます。これにより、結果として得られる離散トークンのシーケンスが非常に長くなり、音響モデル(自己回帰言語モデル)に大きな負担がかかります。代わりに、チームは連続ベクトルを使用しました。したがって、彼らは連続ベクトルを使用し、長さを短くし、粒度レベルで正確な音声再構成のためのより多くのデータを提供します。
  • 自己回帰モデルを拡散モデルに置き換える。
  • 拡散モデルとピッチ/長さ予測子でコンテキストで学習するための音声提示メカニズムを通じてコンテキストで学習する。チームは音声提示メカニズムを開発し、拡散モデルとピッチ/長さ予測子でコンテキストで学習を促進し、拡散モデルが音声提示の特性に従うようにすることでゼロショット容量を向上させました。
  • NaturalSpeech 2は、従来の自己回帰モデルよりも信頼性と安定性が高く、2段階のトークン予測ではなく、単一の音響モデル(拡散モデル)のみを必要とします。つまり、それは自身の長さ/ピッチ予測と非自己回帰生成を使用して、音声以外のスタイル(歌声など)に適用することができます。

これらのアーキテクチャの効果を示すために、研究者たちはNaturalSpeech 2を400Mのモデルパラメータと44K時間の音声データでトレーニングしました。その後、さまざまな話者の身元、プロソディ、スタイル(歌唱など)においてゼロショットのシナリオ(わずか数秒の音声提示のみ)で音声を作成するために使用しました。その結果、NaturalSpeech 2は実験で従来の強力なTTSシステムを上回り、ゼロショットの条件下で自然な音声を生成します。音声提示とグラウンドトゥルースの音声とより似たプロソディを実現します。また、LibriTTSとVCTKのテストセットにおいて、グラウンドトゥルースの音声と比較して、同等またはより高い自然さ(CMOSに関して)を実現します。実験結果は、短い歌唱提示または興味深いことに、音声提示のみで、新しい音質で歌声を生成することができることも示しています。これにより、真のゼロショットの歌声合成が可能になります。

将来、チームは一貫性モデルなどの効果的な方法を調査し、拡散モデルを高速化するための広範な話し方と歌唱声のトレーニングを調査し、より強力な混合話し方/歌唱能力を実現する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

創造性とAIに関するレフィク・アナドールとの対話

Mira Lane は、先駆的なアーティスト Refik Anadol と共に、AIが創造力を強化している方法を探求しています

データサイエンス

スケールにおける機械学習:モデルとデータの並列化

モデルがますます複雑になり、データセットが巨大になるにつれて、計算ワークロードを効率的に分散する方法の必要性はますま...

データサイエンス

「ClimSimに出会ってください:機械学習と気候研究の物理学を結びつける画期的なマルチスケール気候シミュレーションデータセット」

数値物理シミュレーション予測は、気候変動政策の指針となる情報の主要な源です。最も高性能なスーパーコンピュータの限界に...

AIニュース

「AIで生成されたコードはさらにテストが必要ですか?」

「AIを搭載したツールを使用すれば、アプリケーションのプログラミングが簡単になりますしかし、人間によって書かれたコード...

データサイエンス

「PaLM 2はどのように動作しますか?完全ガイド」

「PaLM 2の機能を完全に解説するガイドで、内部の仕組みを探求しましょうこの強力な言語モデルがどのように人間らしいテキス...

機械学習

バイオメディカルインサイトのための生成AI

OpenBIOMLとBIO GPTを利用したGenerative AIを探求し、Large Language Models (LLMs)を使用して疾患の理解と治療に新たなアプ...