「シームレスM4Tに出会ってください:Meta AIの新しいスピーチ翻訳の基盤モデル」
Meet Seamless M4T Meta AI's new foundational model for speech translation.
このモデルは、異なる音声翻訳タスクにおいて独自のアーキテクチャと画期的なパフォーマンスを提供します。
最近、AIに特化した教育ニュースレターを開始しました。現在、16万人以上の購読者がいます。TheSequenceは、5分で読むことができる、ノンフィクションのニュースレターです。目的は、機械学習のプロジェクト、研究論文、概念に関する最新情報を提供することです。以下のリンクから購読してみてください。
TheSequence | Jesus Rodriguez | Substack
機械学習、人工知能、データの最新動向を知る最高の情報源です。
thesequence.substack.com
音声は、基礎モデルの次のフロンティアの1つに急速になっています。言語やコンピュータビジョンなどのドメインはまだヘッドラインを支配していますが、音声はますます重要なドメインになっています。音声から音声への翻訳(S2ST)などの領域では、逐次的なアーキテクチャが使用されてきましたが、これは多数のコンポーネントを組み合わせて進行的に翻訳を行うものです。その結果、この領域は他の基礎モデルの領域と同じ進展を見せていません。最近、Meta AI Researchは、様々な音声翻訳タスクに対応した統一された音声基礎モデルであるSeamlessM4T(Massively Multilingual & Multimodal Machine Translation)の研究を発表しました。
現在の基礎モデルのエコシステムでは、既存の機械翻訳(MT)システムは主にテキストに焦点を当てており、音声サポートは存在しないか、二次的な位置付けとなっています。音声をMTの領域に統合する取り組みは、テキストベースのカウンターパートに比べて二次的な存在とされることがよくあります。単一モーダルモデルの成果にもかかわらず、統一されたS2STモデルが広範な範囲と効果を持つことはまだ遠い未来の話です。モーダリティに基づくこの不均衡は、様々な要因に起因するものですが、音声データの不足とモデリングの制約が主な課題となっています。MTの観点から音声をより困難な取り組みとする複雑さは、より豊かな情報や表現要素をエンコードできる能力に起因していますが、それはまた、意図を伝え、会話参加者間の堅牢な社会的つながりを育む上で優れたものになります。
- 「LoRAとQLoRAを用いた大規模言語モデルのパラメータ効率的なファインチューニング」
- AutoGPTQをご紹介します:GPTQアルゴリズムに基づく使いやすいLLMs量子化パッケージで、ユーザーフレンドリーなAPIを提供します
- あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト
現在のこのようなシステムの状況には、以下の3つの主な不足があります。
1. 音声翻訳モデルの焦点は、主に英語、スペイン語、フランス語などの高リソース言語に向けられており、低リソース言語はほとんど無視されています。
2. これらのシステムは、ソース言語から英語への翻訳に主に対応しており、逆の方向には対応していません。
3. 現在のS2STシステムの大部分は、逐次的なフレームワークに依存しており、自動音声認識(ASR)からT2TTへの移行、さらにテキスト読み上げシンセシス(TTS)を含む3段階のアーキテクチャで翻訳を処理しています。
これらの多様な機能を1つの統一された実体に結びつける取り組みは、エンドツーエンドの音声翻訳システムの初期バージョンを生み出しました。しかし、これらのシステムはまだ逐次的なカウンターパートの性能基準には達していません。
SeamlessM4T
SeamlessM4T(Massively Multilingual and multimodal Machine Translation)は、ASR、T2TT、音声からテキストへの翻訳(S2TT)、テキストから音声への翻訳(T2ST)、およびS2STの機能を備えた統合プラットフォームです。このモデルは、Meta AIが音声翻訳領域での画期的な成果を積み重ねた長い歴史に基づいています。特筆すべきは、Meta AIが前年に発表した「No Language Left Behind(NLLB)」であり、このモデルは200以上の言語をカバーするテキストからテキストへの機械翻訳モデルです。その後の数ヶ月間、Meta AIは画期的な「Universal Speech Translator」を披露しました。この画期的なシステムは、広く採用されていないライティングシステムを持つ福建語に対する直接的な音声から音声への翻訳を実現しました。この取り組みにより、SpeechMatrixという画期的なマルチリンガル音声から音声への翻訳データセットが生まれました。このデータセットは、SpeechLASERのイノベーションによって生まれたものであり、教師あり表現学習の領域での重要なマイルストーンとなりました。今年初めには、Massively Multilingual Speechの発表がありました。この包括的なオファリングは、1,100以上の言語にまたがる自動音声認識、言語識別、音声合成の能力を備えています。
SeamlessM4Tは、これら多様なプロジェクトから得られた洞察を総合し、単一のモデルから生まれる変革的な多言語・多モーダルな翻訳体験を提供します。このモデルは、話されたデータソースの幅広いスペクトルから慎重に構築され、最先端の成果に結実しています。
Meta AIは統一されたモデルを構築するために、他の現代的なPyTorchエコシステムライブラリとシームレスに統合できる軽量なシーケンスモデリングツールキットが必要です。このニーズを満たすために、Meta AIは元のシーケンスモデリングツールキットであるfairseqを再設計しました。より効率的なモデリングとデータローダーAPIを組み込むことで、fairseq2はSeamlessM4Tの基盤となるモデリングプロセスを駆動する重要な役割を果たしています。
モデルの中心には、多タスクのUnitYモデルアーキテクチャがあり、翻訳テキストや音声の生成など、さまざまな機能を実行するよう設計されています。このアーキテクチャは、自動音声認識、テキスト間翻訳、テキストから音声への変換、音声からテキストへの変換、音声から音声への翻訳なども可能にします。これらの機能は、既にバニラのUnitYモデルに組み込まれています。多タスクのUnitYモデルは、3つの主要なシーケンシャルコンポーネントに基づいて構築されています。テキストと音声のエンコーダーは、ほぼ100の言語で音声入力を認識する役割を担っています。その後、テキストデコーダーは、その意味をさまざまな言語に変換し、テキストコンテンツに変換します。その後、テキストからユニットモデルが36の音声言語に適した離散的な音響ユニットにデコードします。セルフスーパーバイズドエンコーダー、音声からテキスト、テキスト間翻訳のコンポーネント、テキストからユニットモデルの事前学習により、モデルの品質が向上し、トレーニングの安定性が確保されます。生成される離散的なユニットは、多言語対応のHiFi-GANユニットボコーダーを使用して音声に変換されます。
Meta AIは、w2v-BERT 2.0と呼ばれるセルフスーパーバイズド音声エンコーダーを使用しています。これは、トレーニングの安定性と表現の品質が向上したw2v-BERTの強化版です。このエンコーダーは、数百万時間にわたる多言語音声データから得られた広範な音声パターンから構造と意味を識別するようにトレーニングされています。エンコーダーは音声信号を小さなセグメントに分割し、話された内容の内部表現を構築します。話された言語はさまざまな音と文字から成るため、長さのアダプタが使用され、これらの要素を対応する単語に近似的にマッピングします。
同様に、Meta AIはNLLBモデルを基盤とするテキストエンコーダーも使用しています。このテキストエンコーダーは、ほぼ100の言語にわたるテキストコンテンツを理解し、翻訳タスクに有用な表現を生成するようにトレーニングされています。
Meta AIのテキストデコーダーは、エンコードされた音声表現またはテキスト表現を処理する能力を持っています。この能力は、自動音声認識や多言語翻訳など、同じ言語内のタスクに活用されます。例えば、話者がフランス語で「bonjour」と発言した場合、対応するスワヒリ語の翻訳テキスト「habari」がシームレスに生成されます。Meta AIは、多タスクトレーニングを通じて、頑健なテキスト間翻訳モデル(NLLB)の能力を利用し、トークンレベルの知識蒸留を経て音声からテキストへの翻訳モデルを誘導します。
音声生成の文脈では、Meta AIは音響ユニットを使用して目標の音声を表現します。UnitYモデル内のテキストからユニット(T2U)コンポーネントは、テキストの出力に基づいて離散的な音声ユニットの作成を組織化します。このコンポーネントは、UnitYの微調整フェーズ前にASRデータで事前トレーニングを受けます。その後、多言語対応のHiFi-GANユニットボコーダーを使用して、これらの離散的なユニットをオーディオ波形に変換します。
SeamlessM4Tのようなデータ駆動モデルは、高品質なエンドツーエンドデータ(特に音声からテキストへのデータや音声から音声へのデータ)の大量の恩恵を受けます。ただし、人間による書き起こしや翻訳された音声データにだけ頼ることは、100の言語の音声翻訳の複雑さに対応するには不十分です。そのため、Meta AIはテキスト間のマイニングにおける先駆的な取り組みをさらに発展させ、統一された埋め込み空間での類似度測定を採用し、音声マイニングの初期研究を行い、SeamlessM4Tモデルのトレーニングに追加のリソースを生成しています。
結果
単一のモデルであるMeta AIのSeamlessM4Tは、ほぼ100の言語にわたる幅広いスペクトルで最先端の成果を達成します。この成果は、自動音声認識、音声からテキストへの変換、音声から音声への変換、テキストから音声への変換、テキスト間翻訳の機能を備えた多タスクの能力によって補完されています。
特に、このシステムは、リソースの利用可能性が低いおよび中程度の言語に進化をもたらし、その性能を大幅に向上させています。この拡張は、高リソースの言語に対しても堅牢な結果を提供するシステムの卓越性と共に行われます。
正確なシステムの評価を追求する中で、Meta AIはテキストベースの評価を超越する拡張メトリック、BLASER 2.0を導入しています。この進化したメトリックは、先行モデルと同様の精度で音声およびテキストのユニットの評価を可能にします。堅牢性のための厳格なテストを経て、システムは音声からテキストへの変換のタスクにおいて卓越した弾力性を示します。背景のノイズや話者の特性の変動の中で、システムは大幅な改善を達成し、平均的な改善率はそれぞれ37%と48%になり、現在の最先端モデルを凌駕します。
SeamlessM4Tは、間違いなく、これまでに構築されたスピーチ翻訳の最もエキサイティングな基盤モデルの一つです。Meta AIのマルチモーダルな取り組みに統合されることを期待しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles