Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します：拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです

Google AIが提案する拡散ベースの簡単なエンドツーエンドテキスト読み上げモデル：シンプルで効率的な拡散ベースのエンドツーエンドテキスト読み上げE3-TTS

機械学習において、拡散モデルは画像や音声生成のタスクによく使われる生成モデルです。拡散モデルは、複雑なデータ分布をより単純な分布に変換する拡散プロセスを使用します。その主な利点は、特に画像や音声合成のようなタスクで高品質な出力を生成できることにあります。

テキスト・トゥ・スピーチ（TTS）システムの文脈では、拡散モデルの適用により、従来のTTSシステムと比べて明らかな改善が見られました。これは、中間的な特徴量の品質に対する強い依存や、展開、トレーニング、設定手続きに伴う複雑さなど、既存のシステムが抱える問題を解決する能力によるものです。

Googleの研究チームは、E3 TTS：イージーエンドツーエンド拡散ベースのテキスト・トゥ・スピーチを提案しました。このテキスト・トゥ・スピーチモデルは、拡散プロセスを利用して時間構造を維持します。このアプローチにより、モデルはプレーンなテキストを入力として受け取り、直接オーディオの波形を生成することができます。

E3 TTSモデルは、非自己回帰的な方法で入力テキストを効率的に処理し、連続処理を必要とせずに直接波形を出力することができます。さらに、話者の識別とアライメントの決定は、拡散中に動的に行われます。このモデルは、2つの主要なモジュールから構成されています。入力テキストから関連情報を抽出するために、事前学習済みのBERTモデルが使用され、BERTの出力を処理するために拡散UNetモデルが使用されます。拡散UNetモデルは、初期のノイズのある波形を反復的に洗練し、最終的な生波形を予測します。

E3 TTSは、オーディオの波形を生成するための反復的な洗練プロセスを採用しています。拡散プロセスを使うことで、追加の条件付け情報なしに、与えられたオーディオ内の柔軟な潜在的な構造をモデル化することができます。

E3 TTSは、事前学習済みのBERTモデルに基づいて構築されています。また、このシステムは音素やグラフェムのような音声表現に頼らずに動作します。BERTモデルはサブワード入力を取り、その出力は1D U-Net構造によって処理されます。これには、ダウンサンプリングとアップサンプリングのブロックが含まれ、リジッドな接続で接続されています。

E3 TTSは、現在の大規模言語モデルの最新の開発を活用し、事前学習済みのテキスト言語モデルからのテキスト表現を使用します。E3 TTSは、テキスト入力を使用して生成プロセスを合理化します。

このモデルはテキスト入力を使用して多言語でトレーニングすることができるため、システムの適応性が向上します。

E3 TTSで使用されるU-Net構造は、リジッドな接続で接続された一連のダウンサンプリングとアップサンプリングのブロックで構成されています。BERTの出力からの情報抽出を改善するために、クロスアテンションはトップのダウンサンプリング/アップサンプリングブロックに組み込まれています。下部のブロックではアダプティブソフトマックス畳み込みニューラルネットワーク（CNN）カーネルが使用され、そのカーネルサイズはタイムステップと話者によって決定されます。話者とタイムステップの埋め込みはFeature-wise Linear Modulation（FiLM）を介して結合され、チャネルごとのスケーリングとバイアスの予測を含みます。

E3 TTSのダウンサンプラーは、ノイズが多い情報を洗練し、24kHzからエンコードされたBERTの出力と同じ長さのシーケンスに変換することで、全体的な品質を大幅に向上させる重要な役割を果たします。逆に、アップサンプラーは、入力波形と同じ長さのノイズを予測します。

まとめると、E3 TTSは高品質なオーディオを生成する能力を示し、この分野の注目に値する品質レベルに近づいています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage model

Was this article helpful?

93 out of 132 found this helpful

Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します：拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです

Was this article helpful?

効率的なコーディング：Pandasチェーン操作の簡単なデバッグ

「AIとともに観測性の潜在能力を解き放つ」

機械学習

ジュネーブ大学の研究者は、多剤耐性（MDR）腸内細菌感染の入院リスクを予測するためのグラフベースの機械学習モデルを調査しています

UC Berkeleyの研究者たちは、ディープラーニングにおいて効率的なデータ圧縮とスパース化を実現するための新しいホワイトボックストランスフォーマーであるCRATEを提案しています

学習トランスフォーマーコード第2部 - GPTを間近で観察

AIを使ってYouTubeショートを作成する

ChatGPTでリードマグネットのアイデアをブレインストームする

認知的燃焼の引火：認知アーキテクチャとLLMの融合による次世代コンピュータの構築