Google AI研究のTranslatotron 3:革新的な教師なし音声対音声翻訳アーキテクチャの発表

「Google AI研究:Translatotron 3─革新的な自己学習型音声対音声翻訳アーキテクチャのお披露目」

音声から音声への翻訳(S2ST)は、言語の壁を取り払うための画期的な技術ですが、並行音声データの不足がその進展を妨げてきました。既存のほとんどのモデルは、教師付きの設定を必要とし、合成されたトレーニングデータからの翻訳と音声属性の再構築の学習に苦労しています。

音声から音声への翻訳では、Google AIの以前のモデルであるTranslatotron 1やTranslatotron 2など、Googleの研究チームによって直接言語間の音声を翻訳することを目指したモデルが注目されてきました。しかし、これらのモデルは教師付きのトレーニングと並行音声データに依存しているため、制約がありました。課題はそのような並行データの不足にあり、S2STモデルのトレーニングを複雑な課題にしています。ここで、Googleの研究チームが紹介した画期的な解決策であるTranslatotron 3が登場します。

研究者たちは、音声翻訳のための公開データセットのほとんどがテキストから半合成または完全合成されたものであることに気付きました。これにより、翻訳の学習と音声属性の正確な再構築に関して、さらなるハードルが生じています。これに対応するために、Translatotron 3は、単一言語データのみから翻訳タスクを学習することを目指す非教師付きS2STの概念を導入することで、パラダイムシフトを実現します。このイノベーションにより、さまざまな言語ペア間での翻訳の可能性が拡大し、一時停止、話す速度、話者の身元などの非テキストの音声属性の翻訳能力が導入されます。

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

Translatotron 3のアーキテクチャは、非教師付きS2STの課題に対処するために3つのキー要素で設計されています。

  1. SpecAugmentを用いたマスク付きオートエンコーダとしてのプレトレーニング: 全体のモデルはマスク付きオートエンコーダとして事前にトレーニングされ、音声認識のためのシンプルなデータ拡張手法であるSpecAugmentを利用します。SpecAugmentは入力オーディオの対数メルスペクトログラム上で動作し、エンコーダの汎化能力を向上させます。
  2. 多言語非教師付き埋め込みマッピングに基づくUnsupervised Embeddings (MUSE): Translatotron 3は、対称言語でトレーニングされたテクニックであるMUSEを活用し、ソース言語とターゲット言語の間で共有の埋め込み空間を学習します。この共有の埋め込み空間により、入力音声の効率的かつ効果的なエンコーディングが可能となります。
  3. バックトランスレーションによる再構築損失: モデルは、非教師付きのMUSE埋め込み損失、再構築損失、およびS2Sバックトランスレーション損失の組み合わせでトレーニングされます。推論中に、共有エンコーダは入力を多言語埋め込み空間にエンコードし、その後、ターゲット言語デコーダによってデコードされます。

Translatotron 3のトレーニング手法は、再構築とバックトランスレーション項を持つ自己符号化を含んでいます。最初の部分では、ネットワークはMUSE損失と再構築損失を使用して、入力を多言語埋め込み空間に自己符号化するようにトレーニングされます。このフェーズでは、ネットワークが意味のある多言語表現を生成することを目的としています。二番目の部分では、ネットワークはバックトランスレーション損失を使用して入力スペクトログラムを翻訳するようにトレーニングされます。この二番目のトレーニングの際に、潜在空間の多言語性を確保するために、MUSE損失と再構築損失が適用されます。両方のフェーズでエンコーダの入力にSpecAugmentが適用され、意味のあるプロパティが学習されるようになっています。

Translatotron 3の経験的評価は、基準のカスケードシステムに比べて会話の微妙なニュアンスを保護する点でその優位性を示しています。このモデルは、翻訳の品質、話者の類似性、音声の品質において優れた性能を発揮します。非教師付きの方法であるにもかかわらず、Translatotron 3は堅牢な解決策であり、既存のシステムと比較して顕著な結果を示しています。平均意見スコア(MOS)によって測定された真実の音声サンプルに匹敵する音声の自然さを実現する能力は、その実効性を現実のシナリオで裏付けています。

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

非監視学習によるS2STの課題に対応するため、Translatotron 3は先駆的な解決策として登場します。モノリンガルデータから学習し、MUSEを活用することで、モデルは優れた翻訳品質を達成し、非テキストの音声特性も保持します。研究チームの革新的なアプローチは、さまざまな言語ペアで音声から音声への翻訳をより多様かつ効果的にするための重要な一歩を示しています。既存のモデルを上回るTranslatotron 3の成功は、この分野を革新し、異なる言語コミュニティ間のコミュニケーションを向上させる可能性を示しています。将来の取り組みでは、チームはモデルをさらに多言語に拡張し、ゼロショットのS2STシナリオでの適用可能性を探求し、グローバルコミュニケーションへの影響を広げることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

メタの戦略的な優れた点:Llama 2は彼らの新しいソーシャルグラフかもしれません

テック業界の注目を集めている動きとして、Metaは最近、無料でオープンソースの大規模言語モデル(LLM)の第2版であるLlama 2...

機械学習

3Dボディモデルに音声が付きました:Meta AIが完全な人体に対して正確な3D空間音響を生成できる人工知能モデルを紹介

知識とコンピューテーションヴィジョン、人工知能(AI)の補完分野の進展により、人間の行動を再現し理解するインテリジェン...

コンピュータサイエンス

ウィンブルドン、ビデオハイライトの解説にAIを使用

この発表は、テニスがテクノロジーを受け入れるスポーツとして広がる傾向の一部です

データサイエンス

2023年のランダムフォレスト:パワフルな手法の最新拡張

機械学習の時間軸において、ランダムフォレスト(RF)はブレイマンの画期的な論文で紹介された古代の手法です([1])年季が入...

AIニュース

彼らはGoogleのAIの訓練を手伝ったしかし、彼らは発言した後に解雇された

Appenに雇用されているGoogleの契約労働者たちは、AIと労働条件に関する懸念を表明した後、解雇されたと水曜日に主張しました

機械学習

「ターシャーに会ってください:GPT4のようなマルチモーダルLLMとのウェブインタラクションを可能にするオープンソースのPythonライブラリ」

AIの成長とそれによる私たちの生活への影響はますます大きくなっており、AIをより便利で使いやすくするための研究が行われて...