マイクロソフトのAIチームがNaturalSpeech 2を発表:強力なゼロショット音声合成と向上した感情表現のための潜在的拡散モデルを備えた最先端のTTSシステム

Microsoft AI team announces NaturalSpeech 2 cutting-edge TTS system with powerful zero-shot voice synthesis and improved emotional expression through latent diffusion model.

テキストから音声(TTS)の目標は、それがリアルな人が話したような高品質で多様な音声を生成することです。プロソディ、話者の身元(性別、アクセント、音質など)、話し方や歌い方など、すべてが人間の音声の豊かさに寄与しています。ニューラルネットワークと深層学習の進歩により、TTSシステムの理解可能性と自然さは大幅に向上しており、一部のシステム(NaturalSpeechなど)は、単一話者のレコーディングスタジオのベンチマークデータセットで人間並みの音声品質に達しています。

以前の話者制限型のレコーディングスタジオデータセットは、話者の身元、プロソディ、スタイルの多様性を捉えるのに十分ではありませんでした。しかし、フューショットまたはゼロショットの技術を使用することで、TTSモデルは大規模なコーパスでトレーニングされ、これらの違いを学習し、これらのトレーニングされたモデルを使用して無限の未知のシナリオに一般化することができます。連続的な音声波形を離散的なトークンに量子化し、これらのトークンを自己回帰言語モデルでモデリングすることは、現在の大規模TTSシステムでは一般的です。

マイクロソフトの新しい研究では、表現豊かなプロソディ、良好な回復性、そして何よりも強力なゼロショット容量を持つ音声合成のための潜在的な拡散モデルを使用するTTSシステムであるNaturalSpeech 2を紹介しています。研究者たちは、音声波形を一連の潜在ベクトルに変換するコーデックエンコーダと、元の波形を回復するためのコーデックデコーダを使用するニューラルオーディオコーデックをトレーニングすることから始めました。音素エンコーダ、長さ予測子、ピッチ予測子から以前のベクトルを取得した後、彼らはこの潜在ベクトルを構築するために拡散モデルを使用します。

以下は、彼らの論文で議論されているデザイン上の決定事項の例です:

  • 従来の方法では、音声は通常、神経コーデックの音声再構成の品質を保証するために多数の残余量子化器で量子化されます。これにより、結果として得られる離散トークンのシーケンスが非常に長くなり、音響モデル(自己回帰言語モデル)に大きな負担がかかります。代わりに、チームは連続ベクトルを使用しました。したがって、彼らは連続ベクトルを使用し、長さを短くし、粒度レベルで正確な音声再構成のためのより多くのデータを提供します。
  • 自己回帰モデルを拡散モデルに置き換える。
  • 拡散モデルとピッチ/長さ予測子でコンテキストで学習するための音声提示メカニズムを通じてコンテキストで学習する。チームは音声提示メカニズムを開発し、拡散モデルとピッチ/長さ予測子でコンテキストで学習を促進し、拡散モデルが音声提示の特性に従うようにすることでゼロショット容量を向上させました。
  • NaturalSpeech 2は、従来の自己回帰モデルよりも信頼性と安定性が高く、2段階のトークン予測ではなく、単一の音響モデル(拡散モデル)のみを必要とします。つまり、それは自身の長さ/ピッチ予測と非自己回帰生成を使用して、音声以外のスタイル(歌声など)に適用することができます。

これらのアーキテクチャの効果を示すために、研究者たちはNaturalSpeech 2を400Mのモデルパラメータと44K時間の音声データでトレーニングしました。その後、さまざまな話者の身元、プロソディ、スタイル(歌唱など)においてゼロショットのシナリオ(わずか数秒の音声提示のみ)で音声を作成するために使用しました。その結果、NaturalSpeech 2は実験で従来の強力なTTSシステムを上回り、ゼロショットの条件下で自然な音声を生成します。音声提示とグラウンドトゥルースの音声とより似たプロソディを実現します。また、LibriTTSとVCTKのテストセットにおいて、グラウンドトゥルースの音声と比較して、同等またはより高い自然さ(CMOSに関して)を実現します。実験結果は、短い歌唱提示または興味深いことに、音声提示のみで、新しい音質で歌声を生成することができることも示しています。これにより、真のゼロショットの歌声合成が可能になります。

将来、チームは一貫性モデルなどの効果的な方法を調査し、拡散モデルを高速化するための広範な話し方と歌唱声のトレーニングを調査し、より強力な混合話し方/歌唱能力を実現する予定です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「データサイエンスプロジェクトを変革する:YAMLファイルに変数を保存する利点を見つけよう」

このブログ投稿では、データサイエンスプロジェクトで変数、パラメータ、ハイパーパラメータを保存するための中心的なリポジ...

機械学習

ユリーカに会ってください:大規模な言語モデルでパワードされた人間レベルの報酬設計アルゴリズム

大型言語モデル(LLM)は、高レベルの計画に優れていますが、ペン回しのような低レベルのタスクに対するサポートが必要です。...

機械学習

イクイノックスに会いましょう:ニューラルネットワークとsciMLのためのJAXライブラリ

データサイエンスや機械学習コミュニティ内で人気を集めている数値計算メソッドのためのJAXライブラリ、Equinoxに会いましょ...

人工知能

ウェブ開発者のためのAI:プロジェクトの紹介とセットアップ

この投稿では、Qwikを使用してウェブ開発プロジェクトをブートストラップし、OpenAIのAIツールを組み込む準備を整えます

データサイエンス

RecList 2.0 オープンソースによるMLモデルの体系的なテストシステム

評価は複雑な問題です評価パイプラインの作成に関与するさまざまなコンポーネントを管理することはしばしば困難ですモデルが...

AI研究

サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります

オープン・ラジオ・アクセス・ネットワーク(O-RAN)は、分離されたラジオ・アクセス・ネットワーク(RAN)に知能を注入し、...