韓国大学の研究者たちは、HierSpeech++を発表しました:高品質で効率的なテキスト読み上げと声の変換のための画期的なAIアプローチ

「韓国大学の研究者たちが発表するHierSpeech++:高品質かつ効率的なテキスト読み上げと音声変換の画期的なAIアプローチ」

韓国大学の研究者たちは、HierSpeech++という新しい音声合成器を開発しました。この研究は、堅牢で表現豊かで自然で人間らしい合成音声を作り出すことを目的としています。チームは、テキスト-音声の対応データセットに頼らずにこれを達成し、既存モデルの短所を改善することを目指しました。HierSpeech++は、音声合成における意味論的な空間と音響的な表現とのギャップを埋めることを目的として設計され、スタイルの適応を改善します。

これまで、LLMに基づくゼロショット音声合成には制約がありました。しかし、HierSpeech++はこれらの制約に対処し、推論速度の遅さに関連する問題を解決するために開発されました。HierSpeech++は、テキストとイントネーションのプロンプトに基づいて自己教師あり音声とF0表現を生成するテキスト-ベクトルフレームワークを活用することで、LLMベースおよび拡散ベースのモデルを上回るパフォーマンスを発揮することが証明されています。これらの高速化、堅牢性の向上、品質の進歩により、HierSpeech++は強力なゼロショット音声合成器として位置付けられています。

HierSpeech++は、事前トレーニングなしで音声を生成するための階層的なフレームワークを使用しています。テキストとイントネーションのプロンプトに基づいて自己教師ありのアドレスとF0表現を開発するために、テキスト-ベクトルフレームワークを採用しています。音声は、階層的なバリアショナルオートエンコーダーと生成されたベクトル、F0、および音声プロンプトを使用して生成されます。この方法には、効率的な音声の超解像度フレームワークも含まれています。包括的な評価では、対数スケールメルエラー距離、音声品質の知覚評価、ピッチ、周期性、音声/非音声F1スコア、自然さ、平均評価スコア、音声の類似性MOSなど、ロスケールのメトリックスと主観的なメトリックスを備えたさまざまな事前トレーニングモデルと実装が使用されます。

HierSpeech++はゼロショットのシナリオで優れた自然さを実現し、堅牢性、表現力、話者の類似性を向上させます。自然さ、平均評価スコア、音声の類似性MOSなどの主観的なメトリックスが音声の魅力を評価するために使用され、その結果、HierSpeech++は真実の音声を上回る性能を示しました。音声の自然さをさらに向上させるために、16 kHzから48 kHzへの音声の超解像度フレームワークも取り入れられました。実験結果はまた、HierSpeech++における階層的なバリアショナルオートエンコーダーがLLMベースのモデルおよび拡散ベースのモデルに優れていることを示し、堅牢なゼロショット音声合成器となっています。また、ノイズのあるプロンプトでのゼロショットテキスト音声合成が、見知らぬ話者からの音声生成におけるHierSpeech++の有効性を検証することも明らかにされました。階層的な合成フレームワークは、柔軟なイントネーションと声のスタイルの転送も可能にし、合成音声をさらに柔軟にします。

まとめると、HierSpeechはゼロショット音声合成において人間レベルの品質を達成するための効率的かつ強力なフレームワークを提供します。意味モデリング、音声合成、超解像度、イントネーションと声のスタイルの転送の切り離しにより、合成音声の柔軟性が向上します。このシステムは、小規模なデータセットでも堅牢性、表現力、自然さ、話者の類似性の向上を実証し、推論速度を大幅に向上させます。この研究では、クロスリンガルおよび感情制御可能な音声合成モデルへの拡張の可能性も探求されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Google AIがMetNet-3を導入:包括的なニューラルネットワークモデルで天気予報を革新する」

天気予報は気象研究の複雑で重要な側面ですが、将来の天気パターンの正確な予測は困難な試みとなっています。多様なデータソ...

データサイエンス

「エンパワーリング・インサイト: マイクロソフトのデータ分析のためのファブリックの潜在能力を解き放つ」

「Microsoft Fabricを探索することは、SQLサーバー以来の最も重要なデータプラットフォームの革新ですその構成要素、利点、お...

AIニュース

「AmazonがAIによるレビューの要約を導入」

1995年、Amazonは顧客レビューのコンセプトを導入することで、電子商取引の風景を一変させました。これは、ショッパーが製品...

AI研究

UCLAとGoogleの研究者が、AVISという画像質問応答の自律情報検索のための画期的なAIフレームワークを提案しています

GPT3、LaMDA、PALM、BLOOM、LLaMAは、膨大な情報を保存し適用する能力を示した大規模言語モデル(LLM)の一部の例です。イン...

機械学習

iOSアプリの自然言語処理:機能、Siriの使用例、およびプロセス

「自然言語処理を使ってiOSアプリを向上させたいですか?iOSアプリでNLPとは何か、そしてそれを成功させるための統合方法を学...

機械学習

メタAIは、CM3leonを紹介します:最先端のテキストから画像生成を提供し、比類のない計算効率を実現するマルチモーダルのゲームチェンジャー

自然言語処理とテキスト入力に基づいた視覚生成システムは、最近、生成型AIモデルへの新たな関心を引き起こしています。最近...