韓国大学の研究者たちは、HierSpeech++を発表しました:高品質で効率的なテキスト読み上げと声の変換のための画期的なAIアプローチ

「韓国大学の研究者たちが発表するHierSpeech++:高品質かつ効率的なテキスト読み上げと音声変換の画期的なAIアプローチ」

韓国大学の研究者たちは、HierSpeech++という新しい音声合成器を開発しました。この研究は、堅牢で表現豊かで自然で人間らしい合成音声を作り出すことを目的としています。チームは、テキスト-音声の対応データセットに頼らずにこれを達成し、既存モデルの短所を改善することを目指しました。HierSpeech++は、音声合成における意味論的な空間と音響的な表現とのギャップを埋めることを目的として設計され、スタイルの適応を改善します。

これまで、LLMに基づくゼロショット音声合成には制約がありました。しかし、HierSpeech++はこれらの制約に対処し、推論速度の遅さに関連する問題を解決するために開発されました。HierSpeech++は、テキストとイントネーションのプロンプトに基づいて自己教師あり音声とF0表現を生成するテキスト-ベクトルフレームワークを活用することで、LLMベースおよび拡散ベースのモデルを上回るパフォーマンスを発揮することが証明されています。これらの高速化、堅牢性の向上、品質の進歩により、HierSpeech++は強力なゼロショット音声合成器として位置付けられています。

HierSpeech++は、事前トレーニングなしで音声を生成するための階層的なフレームワークを使用しています。テキストとイントネーションのプロンプトに基づいて自己教師ありのアドレスとF0表現を開発するために、テキスト-ベクトルフレームワークを採用しています。音声は、階層的なバリアショナルオートエンコーダーと生成されたベクトル、F0、および音声プロンプトを使用して生成されます。この方法には、効率的な音声の超解像度フレームワークも含まれています。包括的な評価では、対数スケールメルエラー距離、音声品質の知覚評価、ピッチ、周期性、音声/非音声F1スコア、自然さ、平均評価スコア、音声の類似性MOSなど、ロスケールのメトリックスと主観的なメトリックスを備えたさまざまな事前トレーニングモデルと実装が使用されます。

HierSpeech++はゼロショットのシナリオで優れた自然さを実現し、堅牢性、表現力、話者の類似性を向上させます。自然さ、平均評価スコア、音声の類似性MOSなどの主観的なメトリックスが音声の魅力を評価するために使用され、その結果、HierSpeech++は真実の音声を上回る性能を示しました。音声の自然さをさらに向上させるために、16 kHzから48 kHzへの音声の超解像度フレームワークも取り入れられました。実験結果はまた、HierSpeech++における階層的なバリアショナルオートエンコーダーがLLMベースのモデルおよび拡散ベースのモデルに優れていることを示し、堅牢なゼロショット音声合成器となっています。また、ノイズのあるプロンプトでのゼロショットテキスト音声合成が、見知らぬ話者からの音声生成におけるHierSpeech++の有効性を検証することも明らかにされました。階層的な合成フレームワークは、柔軟なイントネーションと声のスタイルの転送も可能にし、合成音声をさらに柔軟にします。

まとめると、HierSpeechはゼロショット音声合成において人間レベルの品質を達成するための効率的かつ強力なフレームワークを提供します。意味モデリング、音声合成、超解像度、イントネーションと声のスタイルの転送の切り離しにより、合成音声の柔軟性が向上します。このシステムは、小規模なデータセットでも堅牢性、表現力、自然さ、話者の類似性の向上を実証し、推論速度を大幅に向上させます。この研究では、クロスリンガルおよび感情制御可能な音声合成モデルへの拡張の可能性も探求されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

偽預言者:回帰モデルとMeta's Prophetの比較

「クロスバリデーションを使用して、カスタムの時系列回帰モデルとメタの予測ツールトラフォードの比較を行うためのビジュア...

データサイエンス

多変量ガウス分布による異常検知の基本

私たちの生まれつきのパターン認識能力によって、私たちはこのスキルを使って抜け落ちた部分を埋めたり、次に何が起こるかを...

AIニュース

「OpenAIがGPT-4の力を持つChatGPT Enterpriseを発表」

AI研究の先駆的な組織であるOpenAIは、人工知能の世界における興奮をもたらす新たな章を紹介しました – ChatGPT Enterp...

データサイエンス

スタンフォード大学の研究は、PointOdysseyを紹介します:長期ポイント追跡のための大規模な合成データセット

大規模な注釈付きデータセットは、さまざまなコンピュータビジョンタスクで正確なモデルを作成するためのハイウェイとして機...

機械学習

AI/MLを活用してインテリジェントなサプライチェーンを構築するための始め方

「異なる供給チェーンの要素に対するAI/MLの使用事例と価値提案:計画、調達、製造、配送、逆物流」

機械学習

5つのステップでScikit-learnを始める

このチュートリアルでは、Scikit-learnを使用した機械学習の包括的なハンズオンの手順を提供します読者は、データの前処理、...