メタAIがSeamlessを導入:リアルタイムで表現豊かな言語間コミュニケーションを可能にするパブリックで利用可能なAIシステム

メタAIがSeamlessを導入:リアルタイムで表現豊かな言語間コミュニケーションを実現する公開可能なAIシステム

自動音声翻訳の新機能と改善により、より多くのことが可能になり、より多くの言語をカバーし、さまざまな入力形式と連携して作業することができるようになりました。しかし、人間同士の会話と比較して、機械を介したコミュニケーションが自然に感じられる重要な機能は、現在の大規模な自動音声翻訳システムに欠けています。

新しいMeta AIの研究では、表現豊かで多言語対応の翻訳を始めから終わりまでストリーミングできる一連のモデルを提案しています。研究者は、SeamlessM4T v2を発表しました。これはSeamlessM4Tモデルのアップグレード版であり、マルチモーダルでほぼすべての言語に対応しています。この改良されたモデルは、より新しいバージョンのUnitY2フレームワークを使用しており、リソースが少ない言語データで訓練されています。SeamlessAlignの拡張により、76言語分のデータ(114,800時間分)が自動的に整列されました。SeamlessExpressiveとSeamlessStreamingという最新の2つのモデルは、SeamlessM4T v2に基づいています。SeamlessExpressiveでは、ユーザーは声の抑揚やスタイルを維持しながら翻訳できます。

Metaの研究は、スピーチの速度や休止などのプロソディのあまり探求されていない特徴に対応しながら、声のスタイルを保持することを目指しています。SeamlessStreamingに関しては、提案されたモデルはソースの発話が終了するのを待たずに低遅延のターゲット翻訳を生成します。このモデルでは、効率的な単調多重注意(EMMA)技術が使用されています。SeamlessStreamingでは、多くのソース言語とターゲット言語が同時に音声からテキストへの翻訳が行われます。

チームは、これらのモデルのプロソディ、遅延、頑健性を、新しいバージョンと更新済みの既存の自動評価尺度の組み合わせに基づいて評価しました。さらに、意味の保持、真正性、表現力にとって最も重要な品質を測定するために、既存のプロトコルを修正して人間による評価を実施しました。彼らはジェンダーバイアスの包括的な評価、マルチモーダル機械翻訳に対する既知の最初のレッドチーミング試行、深刻な有害性の検出と軽減に対する既知の最初のシステム、およびディープフェイクの影響を緩和するための聞き取りにくいローカライズされた透かし技術を実施し、彼らのモデルが責任を持って安全に使用されることを保証しました。

Seamlessは、表現豊かな言語間リアルタイムコミュニケーションを可能にする最初の公開システムです。SeamlessExpressiveとSeamlessStreamingを統合したSeamlessは、主要なコンポーネントを組み合わせています。全体的に、Seamlessはユニバーサルスピーチトランスレーターを科学小説のアイデアから現実に変えるために必要な基盤技術を提供しています。

研究者は、モデルの正確性は性別、人種、アクセントによって異なる場合があると指摘していますが、公平性の軸に沿ってアーティファクトを徹底的にテストし、可能な場合には保護策を含めています。さらなる研究は、言語カバレッジの向上とリソースの少ない言語とリソースの豊富な言語間の性能格差の縮小を目指すべきです。これにより、ユニバーサルスピーチトランスレーターを実現することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIエージェント:月のジェネレーティブAIトレンド

わずか30分で、実世界の知識を持つLLMを使用して、ノーコードAIエージェントアプリケーションを構築する方法を学びます

データサイエンス

「Jupyter AIに会おう Jupyterノートブックで人工知能の力を解き放つ」

人工知能(AI)とコーディングの革新的な進歩において、Project Jupyterはそのツールキットに画期的な追加を導入します。それ...

機械学習

GLIP オブジェクト検出への言語-画像事前学習の導入

今日は、言語-画像の事前学習であるCLIPの素晴らしい成功を基に、物体検出のタスクに拡張した論文であるGLIPについて掘り下げ...

機械学習

アリババは、2つのオープンソースの大規模ビジョン言語モデル(LVLM)、「Qwen-VL」と「Qwen-VL-Chat」を発表しました

人工知能の絶え間なく進化する領域において、画像理解とテキストインタラクションのギャップを埋めることは常に課題となって...

機械学習

赤い猫&アテナAIは夜間視認能力を備えた知能化軍用ドローンを製造する

軍事技術のリーディングカンパニーであるRed Cat Holdings, Inc.は、Athena AIとのパートナーシップにおいて、Teal 2の人工知...

データサイエンス

「線形代数からディープラーニングまで 7冊の本(2023年冬のアップデート)」

「Towards Data Science」への初めての投稿では、私は線形代数から現代のディープラーニングまで、あらゆる内容をカバーする...