メタAIがSeamlessを導入:リアルタイムで表現豊かな言語間コミュニケーションを可能にするパブリックで利用可能なAIシステム

メタAIがSeamlessを導入:リアルタイムで表現豊かな言語間コミュニケーションを実現する公開可能なAIシステム

自動音声翻訳の新機能と改善により、より多くのことが可能になり、より多くの言語をカバーし、さまざまな入力形式と連携して作業することができるようになりました。しかし、人間同士の会話と比較して、機械を介したコミュニケーションが自然に感じられる重要な機能は、現在の大規模な自動音声翻訳システムに欠けています。

新しいMeta AIの研究では、表現豊かで多言語対応の翻訳を始めから終わりまでストリーミングできる一連のモデルを提案しています。研究者は、SeamlessM4T v2を発表しました。これはSeamlessM4Tモデルのアップグレード版であり、マルチモーダルでほぼすべての言語に対応しています。この改良されたモデルは、より新しいバージョンのUnitY2フレームワークを使用しており、リソースが少ない言語データで訓練されています。SeamlessAlignの拡張により、76言語分のデータ(114,800時間分)が自動的に整列されました。SeamlessExpressiveとSeamlessStreamingという最新の2つのモデルは、SeamlessM4T v2に基づいています。SeamlessExpressiveでは、ユーザーは声の抑揚やスタイルを維持しながら翻訳できます。

Metaの研究は、スピーチの速度や休止などのプロソディのあまり探求されていない特徴に対応しながら、声のスタイルを保持することを目指しています。SeamlessStreamingに関しては、提案されたモデルはソースの発話が終了するのを待たずに低遅延のターゲット翻訳を生成します。このモデルでは、効率的な単調多重注意(EMMA)技術が使用されています。SeamlessStreamingでは、多くのソース言語とターゲット言語が同時に音声からテキストへの翻訳が行われます。

チームは、これらのモデルのプロソディ、遅延、頑健性を、新しいバージョンと更新済みの既存の自動評価尺度の組み合わせに基づいて評価しました。さらに、意味の保持、真正性、表現力にとって最も重要な品質を測定するために、既存のプロトコルを修正して人間による評価を実施しました。彼らはジェンダーバイアスの包括的な評価、マルチモーダル機械翻訳に対する既知の最初のレッドチーミング試行、深刻な有害性の検出と軽減に対する既知の最初のシステム、およびディープフェイクの影響を緩和するための聞き取りにくいローカライズされた透かし技術を実施し、彼らのモデルが責任を持って安全に使用されることを保証しました。

Seamlessは、表現豊かな言語間リアルタイムコミュニケーションを可能にする最初の公開システムです。SeamlessExpressiveとSeamlessStreamingを統合したSeamlessは、主要なコンポーネントを組み合わせています。全体的に、Seamlessはユニバーサルスピーチトランスレーターを科学小説のアイデアから現実に変えるために必要な基盤技術を提供しています。

研究者は、モデルの正確性は性別、人種、アクセントによって異なる場合があると指摘していますが、公平性の軸に沿ってアーティファクトを徹底的にテストし、可能な場合には保護策を含めています。さらなる研究は、言語カバレッジの向上とリソースの少ない言語とリソースの豊富な言語間の性能格差の縮小を目指すべきです。これにより、ユニバーサルスピーチトランスレーターを実現することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

AIの台頭が犬食い犬のテック産業を牽引している

「テクノロジー業界が根本的な変革を遂げていることについては、私と同意していただけると思いますあなたもそれを見ることが...

データサイエンス

「野心的なAI規制に対する力強いプロセス:オックスフォード研究からの3ステップソリューション」

「もしアカウンタブルマネージャーやプロダクトオーナー、プロジェクトマネージャー、もしくはデータサイエンティストで、AI...

データサイエンス

「ClimSimに出会ってください:機械学習と気候研究の物理学を結びつける画期的なマルチスケール気候シミュレーションデータセット」

数値物理シミュレーション予測は、気候変動政策の指針となる情報の主要な源です。最も高性能なスーパーコンピュータの限界に...

機械学習

「このAIニュースレターが必要なすべて #59」

今週、Zoomの利用規約の変更(3月から)が、顧客のビデオデータの使用に関する懸念が拡散したことで注目されましたZoomの利用...

機械学習

アーサーがベンチを発表:仕事に最適な言語モデルを見つけるためのAIツール

ニューヨーク市の通りでは、AIの新興スタートアップ「Arthur」が機械学習の世界で話題をさらっています。生成型AIに関するブ...

機械学習

マイクロソフトが「オルカ2」をリリース:特製のトレーニング戦略で小さな言語モデルに高度な推論を導入

LLMs(Large Language Models)は、人間の言語に似た言語を理解し生成するために膨大なテキストデータでトレーニングを受けま...