マイクロソフトのAIチームがNaturalSpeech 2を発表:強力なゼロショット音声合成と向上した感情表現のための潜在的拡散モデルを備えた最先端のTTSシステム

Microsoft AI team announces NaturalSpeech 2 cutting-edge TTS system with powerful zero-shot voice synthesis and improved emotional expression through latent diffusion model.

テキストから音声(TTS)の目標は、それがリアルな人が話したような高品質で多様な音声を生成することです。プロソディ、話者の身元(性別、アクセント、音質など)、話し方や歌い方など、すべてが人間の音声の豊かさに寄与しています。ニューラルネットワークと深層学習の進歩により、TTSシステムの理解可能性と自然さは大幅に向上しており、一部のシステム(NaturalSpeechなど)は、単一話者のレコーディングスタジオのベンチマークデータセットで人間並みの音声品質に達しています。

以前の話者制限型のレコーディングスタジオデータセットは、話者の身元、プロソディ、スタイルの多様性を捉えるのに十分ではありませんでした。しかし、フューショットまたはゼロショットの技術を使用することで、TTSモデルは大規模なコーパスでトレーニングされ、これらの違いを学習し、これらのトレーニングされたモデルを使用して無限の未知のシナリオに一般化することができます。連続的な音声波形を離散的なトークンに量子化し、これらのトークンを自己回帰言語モデルでモデリングすることは、現在の大規模TTSシステムでは一般的です。

マイクロソフトの新しい研究では、表現豊かなプロソディ、良好な回復性、そして何よりも強力なゼロショット容量を持つ音声合成のための潜在的な拡散モデルを使用するTTSシステムであるNaturalSpeech 2を紹介しています。研究者たちは、音声波形を一連の潜在ベクトルに変換するコーデックエンコーダと、元の波形を回復するためのコーデックデコーダを使用するニューラルオーディオコーデックをトレーニングすることから始めました。音素エンコーダ、長さ予測子、ピッチ予測子から以前のベクトルを取得した後、彼らはこの潜在ベクトルを構築するために拡散モデルを使用します。

以下は、彼らの論文で議論されているデザイン上の決定事項の例です:

  • 従来の方法では、音声は通常、神経コーデックの音声再構成の品質を保証するために多数の残余量子化器で量子化されます。これにより、結果として得られる離散トークンのシーケンスが非常に長くなり、音響モデル(自己回帰言語モデル)に大きな負担がかかります。代わりに、チームは連続ベクトルを使用しました。したがって、彼らは連続ベクトルを使用し、長さを短くし、粒度レベルで正確な音声再構成のためのより多くのデータを提供します。
  • 自己回帰モデルを拡散モデルに置き換える。
  • 拡散モデルとピッチ/長さ予測子でコンテキストで学習するための音声提示メカニズムを通じてコンテキストで学習する。チームは音声提示メカニズムを開発し、拡散モデルとピッチ/長さ予測子でコンテキストで学習を促進し、拡散モデルが音声提示の特性に従うようにすることでゼロショット容量を向上させました。
  • NaturalSpeech 2は、従来の自己回帰モデルよりも信頼性と安定性が高く、2段階のトークン予測ではなく、単一の音響モデル(拡散モデル)のみを必要とします。つまり、それは自身の長さ/ピッチ予測と非自己回帰生成を使用して、音声以外のスタイル(歌声など)に適用することができます。

これらのアーキテクチャの効果を示すために、研究者たちはNaturalSpeech 2を400Mのモデルパラメータと44K時間の音声データでトレーニングしました。その後、さまざまな話者の身元、プロソディ、スタイル(歌唱など)においてゼロショットのシナリオ(わずか数秒の音声提示のみ)で音声を作成するために使用しました。その結果、NaturalSpeech 2は実験で従来の強力なTTSシステムを上回り、ゼロショットの条件下で自然な音声を生成します。音声提示とグラウンドトゥルースの音声とより似たプロソディを実現します。また、LibriTTSとVCTKのテストセットにおいて、グラウンドトゥルースの音声と比較して、同等またはより高い自然さ(CMOSに関して)を実現します。実験結果は、短い歌唱提示または興味深いことに、音声提示のみで、新しい音質で歌声を生成することができることも示しています。これにより、真のゼロショットの歌声合成が可能になります。

将来、チームは一貫性モデルなどの効果的な方法を調査し、拡散モデルを高速化するための広範な話し方と歌唱声のトレーニングを調査し、より強力な混合話し方/歌唱能力を実現する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

AIの世界で生き残るにはどうすればいいですか?あなたの仕事は危険にさらされていますか?

あなたの仕事は危険にさらされていますか?これは多くの労働者が悩む質問ですが、最近の解雇の文脈ではありません私が言って...

人工知能

AIがあなたのように文章を書く方法(クロード2のチュートリアル)

「あなたはClaude 2の回答をChatGPTよりもずっと人間らしくすることができます」

機械学習

革新的なAI会社Ludaが革命的なリアルタイム強化学習システムを発表

2023年9月27日、テクノロジー界は画期的な出来事を経験しましたLudaという革新的な企業が人工知能(AI)の普及を目指して登場...

データサイエンス

データを中心に:Srikanth Velamakanniと共にデータドリブンの組織を築く

Analytics Vidhyaの「データを活用したリーダーシップ(Leading With Data)」は、業界のリーダーが自身の経験、キャリアの道...

機械学習

このAIニュースレターはあなたが必要とするものです#76

今週、私たちはトランスフォーマーや大規模な言語モデル(LLM)の領域を超えた重要なAIの進展に焦点を当てました最近の新しい...

AIテクノロジー

高度なRAGテクニック:イラスト入り概要

この投稿の目標は、利用可能なRAGアルゴリズムとテクニックの概要と説明をすることなので、コードの実装の詳細には立ち入らず...