韓国大学の研究者たちは、HierSpeech++を発表しました:高品質で効率的なテキスト読み上げと声の変換のための画期的なAIアプローチ

「韓国大学の研究者たちが発表するHierSpeech++:高品質かつ効率的なテキスト読み上げと音声変換の画期的なAIアプローチ」

韓国大学の研究者たちは、HierSpeech++という新しい音声合成器を開発しました。この研究は、堅牢で表現豊かで自然で人間らしい合成音声を作り出すことを目的としています。チームは、テキスト-音声の対応データセットに頼らずにこれを達成し、既存モデルの短所を改善することを目指しました。HierSpeech++は、音声合成における意味論的な空間と音響的な表現とのギャップを埋めることを目的として設計され、スタイルの適応を改善します。

これまで、LLMに基づくゼロショット音声合成には制約がありました。しかし、HierSpeech++はこれらの制約に対処し、推論速度の遅さに関連する問題を解決するために開発されました。HierSpeech++は、テキストとイントネーションのプロンプトに基づいて自己教師あり音声とF0表現を生成するテキスト-ベクトルフレームワークを活用することで、LLMベースおよび拡散ベースのモデルを上回るパフォーマンスを発揮することが証明されています。これらの高速化、堅牢性の向上、品質の進歩により、HierSpeech++は強力なゼロショット音声合成器として位置付けられています。

HierSpeech++は、事前トレーニングなしで音声を生成するための階層的なフレームワークを使用しています。テキストとイントネーションのプロンプトに基づいて自己教師ありのアドレスとF0表現を開発するために、テキスト-ベクトルフレームワークを採用しています。音声は、階層的なバリアショナルオートエンコーダーと生成されたベクトル、F0、および音声プロンプトを使用して生成されます。この方法には、効率的な音声の超解像度フレームワークも含まれています。包括的な評価では、対数スケールメルエラー距離、音声品質の知覚評価、ピッチ、周期性、音声/非音声F1スコア、自然さ、平均評価スコア、音声の類似性MOSなど、ロスケールのメトリックスと主観的なメトリックスを備えたさまざまな事前トレーニングモデルと実装が使用されます。

HierSpeech++はゼロショットのシナリオで優れた自然さを実現し、堅牢性、表現力、話者の類似性を向上させます。自然さ、平均評価スコア、音声の類似性MOSなどの主観的なメトリックスが音声の魅力を評価するために使用され、その結果、HierSpeech++は真実の音声を上回る性能を示しました。音声の自然さをさらに向上させるために、16 kHzから48 kHzへの音声の超解像度フレームワークも取り入れられました。実験結果はまた、HierSpeech++における階層的なバリアショナルオートエンコーダーがLLMベースのモデルおよび拡散ベースのモデルに優れていることを示し、堅牢なゼロショット音声合成器となっています。また、ノイズのあるプロンプトでのゼロショットテキスト音声合成が、見知らぬ話者からの音声生成におけるHierSpeech++の有効性を検証することも明らかにされました。階層的な合成フレームワークは、柔軟なイントネーションと声のスタイルの転送も可能にし、合成音声をさらに柔軟にします。

まとめると、HierSpeechはゼロショット音声合成において人間レベルの品質を達成するための効率的かつ強力なフレームワークを提供します。意味モデリング、音声合成、超解像度、イントネーションと声のスタイルの転送の切り離しにより、合成音声の柔軟性が向上します。このシステムは、小規模なデータセットでも堅牢性、表現力、自然さ、話者の類似性の向上を実証し、推論速度を大幅に向上させます。この研究では、クロスリンガルおよび感情制御可能な音声合成モデルへの拡張の可能性も探求されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「GPTクローラーに会ってください:サイトをクロールし、知識ファイルを生成し、1つまたは複数のURLからカスタムGPTを作成できるAIツール」

ウェブページから知識を抽出してユニークなGPTモデルを構築できるとしたら、どれほど素晴らしいことでしょうか。 あなた自身...

機械学習

NLPとAIを利用したPythonにおけるテンプレートベースの文書生成の力

Pythonを利用したテンプレートベースの文書生成の機能をNLPやAIの機能と融合させ、その力を活用してください文書生成の作業フ...

人工知能

「6つの人工知能の神話を解明:事実とフィクションの分離」

「人気のあるAIの神話の真実を見つけ出し、今日の世界における生成型AIの本当の能力と影響に深く没頭してください」

人工知能

「2023年の営業プロフェッショナル向けのAIツール52選」

モーション モーションは、ユーザーがカレンダー、ミーティング、プロジェクトを管理するのに役立つ生産性ツールです。 Seaml...

機械学習

Amazon SageMaker Studioで生産性を向上させる:JupyterLab Spacesと生成AIツールを紹介

「Amazon SageMaker Studioは、機械学習(ML)開発における広範なセットの完全に管理された統合開発環境(IDE)を提供しています...

AIニュース

マサチューセッツ大学アマースト校のコンピューターサイエンティストたちは、Pythonプログラミングを劇的に高速化するためのオープンソースのAIツール、Scaleneを開発しました

Pythonの人気は最近急上昇しており、使いやすさと豊富なライブラリがその原動力です。しかし、Pythonの効率性は常に懸念され...