Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します:拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです

Google AIが提案する拡散ベースの簡単なエンドツーエンドテキスト読み上げモデル:シンプルで効率的な拡散ベースのエンドツーエンドテキスト読み上げE3-TTS

機械学習において、拡散モデルは画像や音声生成のタスクによく使われる生成モデルです。拡散モデルは、複雑なデータ分布をより単純な分布に変換する拡散プロセスを使用します。その主な利点は、特に画像や音声合成のようなタスクで高品質な出力を生成できることにあります。

テキスト・トゥ・スピーチ(TTS)システムの文脈では、拡散モデルの適用により、従来のTTSシステムと比べて明らかな改善が見られました。これは、中間的な特徴量の品質に対する強い依存や、展開、トレーニング、設定手続きに伴う複雑さなど、既存のシステムが抱える問題を解決する能力によるものです。

Googleの研究チームは、E3 TTS:イージーエンドツーエンド拡散ベースのテキスト・トゥ・スピーチを提案しました。このテキスト・トゥ・スピーチモデルは、拡散プロセスを利用して時間構造を維持します。このアプローチにより、モデルはプレーンなテキストを入力として受け取り、直接オーディオの波形を生成することができます。

E3 TTSモデルは、非自己回帰的な方法で入力テキストを効率的に処理し、連続処理を必要とせずに直接波形を出力することができます。さらに、話者の識別とアライメントの決定は、拡散中に動的に行われます。このモデルは、2つの主要なモジュールから構成されています。入力テキストから関連情報を抽出するために、事前学習済みのBERTモデルが使用され、BERTの出力を処理するために拡散UNetモデルが使用されます。拡散UNetモデルは、初期のノイズのある波形を反復的に洗練し、最終的な生波形を予測します。

E3 TTSは、オーディオの波形を生成するための反復的な洗練プロセスを採用しています。拡散プロセスを使うことで、追加の条件付け情報なしに、与えられたオーディオ内の柔軟な潜在的な構造をモデル化することができます。

E3 TTSは、事前学習済みのBERTモデルに基づいて構築されています。また、このシステムは音素やグラフェムのような音声表現に頼らずに動作します。BERTモデルはサブワード入力を取り、その出力は1D U-Net構造によって処理されます。これには、ダウンサンプリングとアップサンプリングのブロックが含まれ、リジッドな接続で接続されています。

E3 TTSは、現在の大規模言語モデルの最新の開発を活用し、事前学習済みのテキスト言語モデルからのテキスト表現を使用します。E3 TTSは、テキスト入力を使用して生成プロセスを合理化します。

このモデルはテキスト入力を使用して多言語でトレーニングすることができるため、システムの適応性が向上します。

E3 TTSで使用されるU-Net構造は、リジッドな接続で接続された一連のダウンサンプリングとアップサンプリングのブロックで構成されています。BERTの出力からの情報抽出を改善するために、クロスアテンションはトップのダウンサンプリング/アップサンプリングブロックに組み込まれています。下部のブロックではアダプティブソフトマックス畳み込みニューラルネットワーク(CNN)カーネルが使用され、そのカーネルサイズはタイムステップと話者によって決定されます。話者とタイムステップの埋め込みはFeature-wise Linear Modulation(FiLM)を介して結合され、チャネルごとのスケーリングとバイアスの予測を含みます。

E3 TTSのダウンサンプラーは、ノイズが多い情報を洗練し、24kHzからエンコードされたBERTの出力と同じ長さのシーケンスに変換することで、全体的な品質を大幅に向上させる重要な役割を果たします。逆に、アップサンプラーは、入力波形と同じ長さのノイズを予測します。

まとめると、E3 TTSは高品質なオーディオを生成する能力を示し、この分野の注目に値する品質レベルに近づいています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

スコア! チームNVIDIAが推薦システムでトロフィーを獲得しました

5人の機械学習の専門家が4つの大陸に分散し、最先端のレコメンデーションシステムを構築するための激しい競争で3つのタスク全...

AI研究

シリコンボレー:デザイナーがチップ支援のために生成AIを活用

今日公開された研究論文によれば、生成AIは、最も複雑なエンジニアリングプロジェクトの1つである半導体設計を支援できる方法...

AI研究

「Microsoftの研究者がPIT(Permutation Invariant Transformation)を提案:動的まばらさのためのディープラーニングコンパイラ」

“`html 最近、深層学習は動的スパース性に最適化されたモデルの研究によって注目されています。このシナリオでは、スパ...

AI研究

「医療分野における生成型AI」

はじめに 生成型人工知能は、ここ数年で急速に注目を集めています。医療と生成型人工知能の間に強い関係性が生まれていること...

機械学習

「大規模な言語モデルを使用した顧客調査フィードバック分析の強化」

はじめに 顧客フィードバック分析の世界へようこそ。顧客の意見の未探索の富は、ビジネスの成功を形作ることができます。今日...

人工知能

ウェブ開発者のためのAI:プロジェクトの紹介とセットアップ

この投稿では、Qwikを使用してウェブ開発プロジェクトをブートストラップし、OpenAIのAIツールを組み込む準備を整えます