Google AI研究のTranslatotron 3：革新的な教師なし音声対音声翻訳アーキテクチャの発表

「Google AI研究：Translatotron 3─革新的な自己学習型音声対音声翻訳アーキテクチャのお披露目」

音声から音声への翻訳（S2ST）は、言語の壁を取り払うための画期的な技術ですが、並行音声データの不足がその進展を妨げてきました。既存のほとんどのモデルは、教師付きの設定を必要とし、合成されたトレーニングデータからの翻訳と音声属性の再構築の学習に苦労しています。

音声から音声への翻訳では、Google AIの以前のモデルであるTranslatotron 1やTranslatotron 2など、Googleの研究チームによって直接言語間の音声を翻訳することを目指したモデルが注目されてきました。しかし、これらのモデルは教師付きのトレーニングと並行音声データに依存しているため、制約がありました。課題はそのような並行データの不足にあり、S2STモデルのトレーニングを複雑な課題にしています。ここで、Googleの研究チームが紹介した画期的な解決策であるTranslatotron 3が登場します。

研究者たちは、音声翻訳のための公開データセットのほとんどがテキストから半合成または完全合成されたものであることに気付きました。これにより、翻訳の学習と音声属性の正確な再構築に関して、さらなるハードルが生じています。これに対応するために、Translatotron 3は、単一言語データのみから翻訳タスクを学習することを目指す非教師付きS2STの概念を導入することで、パラダイムシフトを実現します。このイノベーションにより、さまざまな言語ペア間での翻訳の可能性が拡大し、一時停止、話す速度、話者の身元などの非テキストの音声属性の翻訳能力が導入されます。

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

Translatotron 3のアーキテクチャは、非教師付きS2STの課題に対処するために3つのキー要素で設計されています。

SpecAugmentを用いたマスク付きオートエンコーダとしてのプレトレーニング: 全体のモデルはマスク付きオートエンコーダとして事前にトレーニングされ、音声認識のためのシンプルなデータ拡張手法であるSpecAugmentを利用します。SpecAugmentは入力オーディオの対数メルスペクトログラム上で動作し、エンコーダの汎化能力を向上させます。
多言語非教師付き埋め込みマッピングに基づくUnsupervised Embeddings (MUSE): Translatotron 3は、対称言語でトレーニングされたテクニックであるMUSEを活用し、ソース言語とターゲット言語の間で共有の埋め込み空間を学習します。この共有の埋め込み空間により、入力音声の効率的かつ効果的なエンコーディングが可能となります。
バックトランスレーションによる再構築損失: モデルは、非教師付きのMUSE埋め込み損失、再構築損失、およびS2Sバックトランスレーション損失の組み合わせでトレーニングされます。推論中に、共有エンコーダは入力を多言語埋め込み空間にエンコードし、その後、ターゲット言語デコーダによってデコードされます。

Translatotron 3のトレーニング手法は、再構築とバックトランスレーション項を持つ自己符号化を含んでいます。最初の部分では、ネットワークはMUSE損失と再構築損失を使用して、入力を多言語埋め込み空間に自己符号化するようにトレーニングされます。このフェーズでは、ネットワークが意味のある多言語表現を生成することを目的としています。二番目の部分では、ネットワークはバックトランスレーション損失を使用して入力スペクトログラムを翻訳するようにトレーニングされます。この二番目のトレーニングの際に、潜在空間の多言語性を確保するために、MUSE損失と再構築損失が適用されます。両方のフェーズでエンコーダの入力にSpecAugmentが適用され、意味のあるプロパティが学習されるようになっています。

Translatotron 3の経験的評価は、基準のカスケードシステムに比べて会話の微妙なニュアンスを保護する点でその優位性を示しています。このモデルは、翻訳の品質、話者の類似性、音声の品質において優れた性能を発揮します。非教師付きの方法であるにもかかわらず、Translatotron 3は堅牢な解決策であり、既存のシステムと比較して顕著な結果を示しています。平均意見スコア（MOS）によって測定された真実の音声サンプルに匹敵する音声の自然さを実現する能力は、その実効性を現実のシナリオで裏付けています。

非監視学習によるS2STの課題に対応するため、Translatotron 3は先駆的な解決策として登場します。モノリンガルデータから学習し、MUSEを活用することで、モデルは優れた翻訳品質を達成し、非テキストの音声特性も保持します。研究チームの革新的なアプローチは、さまざまな言語ペアで音声から音声への翻訳をより多様かつ効果的にするための重要な一歩を示しています。既存のモデルを上回るTranslatotron 3の成功は、この分野を革新し、異なる言語コミュニティ間のコミュニケーションを向上させる可能性を示しています。将来の取り組みでは、チームはモデルをさらに多言語に拡張し、ゼロショットのS2STシナリオでの適用可能性を探求し、グローバルコミュニケーションへの影響を広げることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage model

Was this article helpful?

93 out of 132 found this helpful

Google AI研究のTranslatotron 3：革新的な教師なし音声対音声翻訳アーキテクチャの発表

Was this article helpful?

「ロボットのビジョン-言語プランニングにおけるGPT-4Vの力を発揮する方法は？ViLaと出会ってください：長期計画のためにGPT-4Vを活用するシンプルで効果的なAIメソッド」

テンセントAI研究所では、GPT4Videoを紹介していますこれは統合マルチモーダル大規模言語モデルであり、指示に従った理解と安全意識のある生成を目指しています

AI研究

MLモデルのDocker化：デプロイメントガイド

「NVIDIAのAIが地球を気候変動から救う」

スタビリティAIが日本語のStableLMアルファを発表：日本語言語モデルの飛躍的な進化

「カリフォルニアが自動運転車に関するフラッドゲートを開放しました」

「グラスゴー大学のスピンアウト企業が「化学のデジタル化」のために4300万ドルを調達」

NVIDIA CEO：クリエイターは生成的AIによって「スーパーチャージ」されるでしょう