Google AI研究のTranslatotron 3:革新的な教師なし音声対音声翻訳アーキテクチャの発表

「Google AI研究:Translatotron 3─革新的な自己学習型音声対音声翻訳アーキテクチャのお披露目」

音声から音声への翻訳(S2ST)は、言語の壁を取り払うための画期的な技術ですが、並行音声データの不足がその進展を妨げてきました。既存のほとんどのモデルは、教師付きの設定を必要とし、合成されたトレーニングデータからの翻訳と音声属性の再構築の学習に苦労しています。

音声から音声への翻訳では、Google AIの以前のモデルであるTranslatotron 1やTranslatotron 2など、Googleの研究チームによって直接言語間の音声を翻訳することを目指したモデルが注目されてきました。しかし、これらのモデルは教師付きのトレーニングと並行音声データに依存しているため、制約がありました。課題はそのような並行データの不足にあり、S2STモデルのトレーニングを複雑な課題にしています。ここで、Googleの研究チームが紹介した画期的な解決策であるTranslatotron 3が登場します。

研究者たちは、音声翻訳のための公開データセットのほとんどがテキストから半合成または完全合成されたものであることに気付きました。これにより、翻訳の学習と音声属性の正確な再構築に関して、さらなるハードルが生じています。これに対応するために、Translatotron 3は、単一言語データのみから翻訳タスクを学習することを目指す非教師付きS2STの概念を導入することで、パラダイムシフトを実現します。このイノベーションにより、さまざまな言語ペア間での翻訳の可能性が拡大し、一時停止、話す速度、話者の身元などの非テキストの音声属性の翻訳能力が導入されます。

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

Translatotron 3のアーキテクチャは、非教師付きS2STの課題に対処するために3つのキー要素で設計されています。

  1. SpecAugmentを用いたマスク付きオートエンコーダとしてのプレトレーニング: 全体のモデルはマスク付きオートエンコーダとして事前にトレーニングされ、音声認識のためのシンプルなデータ拡張手法であるSpecAugmentを利用します。SpecAugmentは入力オーディオの対数メルスペクトログラム上で動作し、エンコーダの汎化能力を向上させます。
  2. 多言語非教師付き埋め込みマッピングに基づくUnsupervised Embeddings (MUSE): Translatotron 3は、対称言語でトレーニングされたテクニックであるMUSEを活用し、ソース言語とターゲット言語の間で共有の埋め込み空間を学習します。この共有の埋め込み空間により、入力音声の効率的かつ効果的なエンコーディングが可能となります。
  3. バックトランスレーションによる再構築損失: モデルは、非教師付きのMUSE埋め込み損失、再構築損失、およびS2Sバックトランスレーション損失の組み合わせでトレーニングされます。推論中に、共有エンコーダは入力を多言語埋め込み空間にエンコードし、その後、ターゲット言語デコーダによってデコードされます。

Translatotron 3のトレーニング手法は、再構築とバックトランスレーション項を持つ自己符号化を含んでいます。最初の部分では、ネットワークはMUSE損失と再構築損失を使用して、入力を多言語埋め込み空間に自己符号化するようにトレーニングされます。このフェーズでは、ネットワークが意味のある多言語表現を生成することを目的としています。二番目の部分では、ネットワークはバックトランスレーション損失を使用して入力スペクトログラムを翻訳するようにトレーニングされます。この二番目のトレーニングの際に、潜在空間の多言語性を確保するために、MUSE損失と再構築損失が適用されます。両方のフェーズでエンコーダの入力にSpecAugmentが適用され、意味のあるプロパティが学習されるようになっています。

Translatotron 3の経験的評価は、基準のカスケードシステムに比べて会話の微妙なニュアンスを保護する点でその優位性を示しています。このモデルは、翻訳の品質、話者の類似性、音声の品質において優れた性能を発揮します。非教師付きの方法であるにもかかわらず、Translatotron 3は堅牢な解決策であり、既存のシステムと比較して顕著な結果を示しています。平均意見スコア(MOS)によって測定された真実の音声サンプルに匹敵する音声の自然さを実現する能力は、その実効性を現実のシナリオで裏付けています。

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

非監視学習によるS2STの課題に対応するため、Translatotron 3は先駆的な解決策として登場します。モノリンガルデータから学習し、MUSEを活用することで、モデルは優れた翻訳品質を達成し、非テキストの音声特性も保持します。研究チームの革新的なアプローチは、さまざまな言語ペアで音声から音声への翻訳をより多様かつ効果的にするための重要な一歩を示しています。既存のモデルを上回るTranslatotron 3の成功は、この分野を革新し、異なる言語コミュニティ間のコミュニケーションを向上させる可能性を示しています。将来の取り組みでは、チームはモデルをさらに多言語に拡張し、ゼロショットのS2STシナリオでの適用可能性を探求し、グローバルコミュニケーションへの影響を広げることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

マーク外:AI進捗競争におけるメトリクスゲーミングの落とし穴

「共産主義のネイル工場から資本主義のボット戦まで、この記事では、虚偽の基準や狭視的なハイプサイクルが意味のある進歩を...

機械学習

「教師付き学習の実践:線形回帰」

「もしScikit-learnを使用した線形回帰の実装について、詳細で初心者にもやさしいチュートリアルを通じて実践的な経験を求め...

コンピュータサイエンス

「祝福と恐怖:広告主が慎重にAIを受け入れる」

「多くの広告は、急速に進化する技術によってより簡単に作成できるようになっていますただし、これは既に変動中の産業にとっ...

AI研究

「CMUの研究者たちがRoboToolを公開:自然言語の指示を受け取り、シミュレーション環境と実世界のロボットを制御するための実行可能なコードを出力するAIシステム」

カーネギーメロン大学とGoogle DeepMindの研究者が協力して、RoboToolと呼ばれるシステムを開発しました。このシステムは大規...

データサイエンス

ICAと現実のカクテルパーティの問題

「独立成分分析(ICA)は、1990年代以降の重要な発展¹以降、一般的に使用されるようになったデータ分解および前処理技術ですI...

データサイエンス

データを持っていますか?SMOTEとGANが合成データを作成する方法

合成データは、開発者やデータサイエンティストにとって大きな課題であるAI/MLモデルの訓練に十分でクリーンなデータを持つこ...