メタAIがSeamlessを導入:リアルタイムで表現豊かな言語間コミュニケーションを可能にするパブリックで利用可能なAIシステム

メタAIがSeamlessを導入:リアルタイムで表現豊かな言語間コミュニケーションを実現する公開可能なAIシステム

自動音声翻訳の新機能と改善により、より多くのことが可能になり、より多くの言語をカバーし、さまざまな入力形式と連携して作業することができるようになりました。しかし、人間同士の会話と比較して、機械を介したコミュニケーションが自然に感じられる重要な機能は、現在の大規模な自動音声翻訳システムに欠けています。

新しいMeta AIの研究では、表現豊かで多言語対応の翻訳を始めから終わりまでストリーミングできる一連のモデルを提案しています。研究者は、SeamlessM4T v2を発表しました。これはSeamlessM4Tモデルのアップグレード版であり、マルチモーダルでほぼすべての言語に対応しています。この改良されたモデルは、より新しいバージョンのUnitY2フレームワークを使用しており、リソースが少ない言語データで訓練されています。SeamlessAlignの拡張により、76言語分のデータ(114,800時間分)が自動的に整列されました。SeamlessExpressiveとSeamlessStreamingという最新の2つのモデルは、SeamlessM4T v2に基づいています。SeamlessExpressiveでは、ユーザーは声の抑揚やスタイルを維持しながら翻訳できます。

Metaの研究は、スピーチの速度や休止などのプロソディのあまり探求されていない特徴に対応しながら、声のスタイルを保持することを目指しています。SeamlessStreamingに関しては、提案されたモデルはソースの発話が終了するのを待たずに低遅延のターゲット翻訳を生成します。このモデルでは、効率的な単調多重注意(EMMA)技術が使用されています。SeamlessStreamingでは、多くのソース言語とターゲット言語が同時に音声からテキストへの翻訳が行われます。

チームは、これらのモデルのプロソディ、遅延、頑健性を、新しいバージョンと更新済みの既存の自動評価尺度の組み合わせに基づいて評価しました。さらに、意味の保持、真正性、表現力にとって最も重要な品質を測定するために、既存のプロトコルを修正して人間による評価を実施しました。彼らはジェンダーバイアスの包括的な評価、マルチモーダル機械翻訳に対する既知の最初のレッドチーミング試行、深刻な有害性の検出と軽減に対する既知の最初のシステム、およびディープフェイクの影響を緩和するための聞き取りにくいローカライズされた透かし技術を実施し、彼らのモデルが責任を持って安全に使用されることを保証しました。

Seamlessは、表現豊かな言語間リアルタイムコミュニケーションを可能にする最初の公開システムです。SeamlessExpressiveとSeamlessStreamingを統合したSeamlessは、主要なコンポーネントを組み合わせています。全体的に、Seamlessはユニバーサルスピーチトランスレーターを科学小説のアイデアから現実に変えるために必要な基盤技術を提供しています。

研究者は、モデルの正確性は性別、人種、アクセントによって異なる場合があると指摘していますが、公平性の軸に沿ってアーティファクトを徹底的にテストし、可能な場合には保護策を含めています。さらなる研究は、言語カバレッジの向上とリソースの少ない言語とリソースの豊富な言語間の性能格差の縮小を目指すべきです。これにより、ユニバーサルスピーチトランスレーターを実現することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「DINO — コンピュータビジョンのための基盤モデル」

「コンピュータビジョンにとっては、エキサイティングな10年です自然言語の分野での大成功がビジョンの領域にも移されており...

AIニュース

既存のLLMプロジェクトをLangChainを使用するように適応する

おめでとうございます!素晴らしいLLMの概念証明が完成しましたね自信を持って世界に披露できます!もしかしたら、OpenAIライ...

データサイエンス

「関係深層学習ベンチマーク(RelBench)に出会ってください:関係データベース上の機械学習のためのリアルな、大規模で多様なベンチマークデータセットのコレクション」

人工知能(AI)と機械学習(ML)の急速な進歩の分野において、効果的で自動化され、適応性のある手法を見つけることは非常に...

人工知能

「インテリアデザインのための中間プロンプト」

「これらのミッドジャーニーのインテリアデザインのヒントを使って、家のどの部屋でもリフレッシュしてください」

データサイエンス

「インド、人工知能を利用し言語の壁を解消へと向かう」

インドは人工知能(AI)を活用し、言語の壁を乗り越え、多様な人口の包括的参加を確保しようとしています。南西部の州である...

人工知能

「Oktaの顧客アイデンティティで優れたデジタル体験を提供し、新たな価値を開放しましょう」

オクターの顧客アイデンティティへのビジョンは、ユーザーが迅速に革新し、シームレスなスケールを実現し、あらゆるデジタル...