Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します:拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです

Google AIが提案する拡散ベースの簡単なエンドツーエンドテキスト読み上げモデル:シンプルで効率的な拡散ベースのエンドツーエンドテキスト読み上げE3-TTS

機械学習において、拡散モデルは画像や音声生成のタスクによく使われる生成モデルです。拡散モデルは、複雑なデータ分布をより単純な分布に変換する拡散プロセスを使用します。その主な利点は、特に画像や音声合成のようなタスクで高品質な出力を生成できることにあります。

テキスト・トゥ・スピーチ(TTS)システムの文脈では、拡散モデルの適用により、従来のTTSシステムと比べて明らかな改善が見られました。これは、中間的な特徴量の品質に対する強い依存や、展開、トレーニング、設定手続きに伴う複雑さなど、既存のシステムが抱える問題を解決する能力によるものです。

Googleの研究チームは、E3 TTS:イージーエンドツーエンド拡散ベースのテキスト・トゥ・スピーチを提案しました。このテキスト・トゥ・スピーチモデルは、拡散プロセスを利用して時間構造を維持します。このアプローチにより、モデルはプレーンなテキストを入力として受け取り、直接オーディオの波形を生成することができます。

E3 TTSモデルは、非自己回帰的な方法で入力テキストを効率的に処理し、連続処理を必要とせずに直接波形を出力することができます。さらに、話者の識別とアライメントの決定は、拡散中に動的に行われます。このモデルは、2つの主要なモジュールから構成されています。入力テキストから関連情報を抽出するために、事前学習済みのBERTモデルが使用され、BERTの出力を処理するために拡散UNetモデルが使用されます。拡散UNetモデルは、初期のノイズのある波形を反復的に洗練し、最終的な生波形を予測します。

E3 TTSは、オーディオの波形を生成するための反復的な洗練プロセスを採用しています。拡散プロセスを使うことで、追加の条件付け情報なしに、与えられたオーディオ内の柔軟な潜在的な構造をモデル化することができます。

E3 TTSは、事前学習済みのBERTモデルに基づいて構築されています。また、このシステムは音素やグラフェムのような音声表現に頼らずに動作します。BERTモデルはサブワード入力を取り、その出力は1D U-Net構造によって処理されます。これには、ダウンサンプリングとアップサンプリングのブロックが含まれ、リジッドな接続で接続されています。

E3 TTSは、現在の大規模言語モデルの最新の開発を活用し、事前学習済みのテキスト言語モデルからのテキスト表現を使用します。E3 TTSは、テキスト入力を使用して生成プロセスを合理化します。

このモデルはテキスト入力を使用して多言語でトレーニングすることができるため、システムの適応性が向上します。

E3 TTSで使用されるU-Net構造は、リジッドな接続で接続された一連のダウンサンプリングとアップサンプリングのブロックで構成されています。BERTの出力からの情報抽出を改善するために、クロスアテンションはトップのダウンサンプリング/アップサンプリングブロックに組み込まれています。下部のブロックではアダプティブソフトマックス畳み込みニューラルネットワーク(CNN)カーネルが使用され、そのカーネルサイズはタイムステップと話者によって決定されます。話者とタイムステップの埋め込みはFeature-wise Linear Modulation(FiLM)を介して結合され、チャネルごとのスケーリングとバイアスの予測を含みます。

E3 TTSのダウンサンプラーは、ノイズが多い情報を洗練し、24kHzからエンコードされたBERTの出力と同じ長さのシーケンスに変換することで、全体的な品質を大幅に向上させる重要な役割を果たします。逆に、アップサンプラーは、入力波形と同じ長さのノイズを予測します。

まとめると、E3 TTSは高品質なオーディオを生成する能力を示し、この分野の注目に値する品質レベルに近づいています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Fast.AIディープラーニングコースからの7つの教訓

「最近、Fast.AIのPractical Deep Learning Courseを修了しましたこれまでに多くの機械学習コースを受講してきましたので、比...

データサイエンス

DLノート:勾配降下法

人工ニューラルネットワーク(ANN)は、万能関数近似器です十分なデータが与えられ、適切なアーキテクチャがあり、十分な訓練...

人工知能

あなたが作るものはあなたそのものです:コードをより人間的にする方法

GitHubのクリスティーナ・エンチェヴタさんが、AIアプリケーションが私たちの価値観を反映していることや、建設的なフィード...

機械学習

インドのOla CEO、ブハビッシュ・アガルワルがAI開発に進出します

ダイナミックなテックの風景の中で、インドはAI分野で野心的な新興企業を生み出しています。Ola CEOのBhavish Aggarwalが率い...

AIニュース

「AIで生成されたコードはさらにテストが必要ですか?」

「AIを搭載したツールを使用すれば、アプリケーションのプログラミングが簡単になりますしかし、人間によって書かれたコード...

AI研究

デューク大学の研究者たちは、ポリシーステッチングを提案していますこれは、ロボットとタスクの新しい組み合わせにおけるロボットの転送学習を容易にする、画期的なAIフレームワークです

ロボット工学では、環境の変化やロボット構造の変更に敏感なスキルをロボットに教えるために、強化学習(RL)を使用する際に...