メタAIがSeamlessを導入:リアルタイムで表現豊かな言語間コミュニケーションを可能にするパブリックで利用可能なAIシステム
メタAIがSeamlessを導入:リアルタイムで表現豊かな言語間コミュニケーションを実現する公開可能なAIシステム
自動音声翻訳の新機能と改善により、より多くのことが可能になり、より多くの言語をカバーし、さまざまな入力形式と連携して作業することができるようになりました。しかし、人間同士の会話と比較して、機械を介したコミュニケーションが自然に感じられる重要な機能は、現在の大規模な自動音声翻訳システムに欠けています。
新しいMeta AIの研究では、表現豊かで多言語対応の翻訳を始めから終わりまでストリーミングできる一連のモデルを提案しています。研究者は、SeamlessM4T v2を発表しました。これはSeamlessM4Tモデルのアップグレード版であり、マルチモーダルでほぼすべての言語に対応しています。この改良されたモデルは、より新しいバージョンのUnitY2フレームワークを使用しており、リソースが少ない言語データで訓練されています。SeamlessAlignの拡張により、76言語分のデータ(114,800時間分)が自動的に整列されました。SeamlessExpressiveとSeamlessStreamingという最新の2つのモデルは、SeamlessM4T v2に基づいています。SeamlessExpressiveでは、ユーザーは声の抑揚やスタイルを維持しながら翻訳できます。
Metaの研究は、スピーチの速度や休止などのプロソディのあまり探求されていない特徴に対応しながら、声のスタイルを保持することを目指しています。SeamlessStreamingに関しては、提案されたモデルはソースの発話が終了するのを待たずに低遅延のターゲット翻訳を生成します。このモデルでは、効率的な単調多重注意(EMMA)技術が使用されています。SeamlessStreamingでは、多くのソース言語とターゲット言語が同時に音声からテキストへの翻訳が行われます。
- このAIペーパーは、さまざまなタスクでChatGPTに追いついたり超えたりすると主張するオープンソースの大規模言語モデルの詳細なレビューを公開しています
- 「SceneTexをご紹介:屋内シーンにおける高品質でスタイル一貫性のあるテクスチャ生成のための革新的なAI手法」
- 「Perplexity(パープレキシティ)が2つの新たなオンラインLLMモデルを発表:『pplx-7b-online』と『pplx-70b-online』」
チームは、これらのモデルのプロソディ、遅延、頑健性を、新しいバージョンと更新済みの既存の自動評価尺度の組み合わせに基づいて評価しました。さらに、意味の保持、真正性、表現力にとって最も重要な品質を測定するために、既存のプロトコルを修正して人間による評価を実施しました。彼らはジェンダーバイアスの包括的な評価、マルチモーダル機械翻訳に対する既知の最初のレッドチーミング試行、深刻な有害性の検出と軽減に対する既知の最初のシステム、およびディープフェイクの影響を緩和するための聞き取りにくいローカライズされた透かし技術を実施し、彼らのモデルが責任を持って安全に使用されることを保証しました。
Seamlessは、表現豊かな言語間リアルタイムコミュニケーションを可能にする最初の公開システムです。SeamlessExpressiveとSeamlessStreamingを統合したSeamlessは、主要なコンポーネントを組み合わせています。全体的に、Seamlessはユニバーサルスピーチトランスレーターを科学小説のアイデアから現実に変えるために必要な基盤技術を提供しています。
研究者は、モデルの正確性は性別、人種、アクセントによって異なる場合があると指摘していますが、公平性の軸に沿ってアーティファクトを徹底的にテストし、可能な場合には保護策を含めています。さらなる研究は、言語カバレッジの向上とリソースの少ない言語とリソースの豊富な言語間の性能格差の縮小を目指すべきです。これにより、ユニバーサルスピーチトランスレーターを実現することができます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「PepCNNという名のディープラーニングツールを紹介します:シーケンス、構造、言語モデルの特徴を使用してタンパク質中のペプチド結合残基を予測するためのものです」
- 「3Dシーン表現の境界を破る:新しいAIテクニックによる高速かつ効率的なレンダリングとストレージ要件の削減によるゲームの変革」
- 「Meditronを紹介:LLaMA-2に基づいたオープンソースの医学用大規模言語モデル(LLM)のスイート」
- ノースイースタン大学およびMITのこのAIの論文では、拡散モデルにおける画像生成制御のための解釈可能なコンセプトスライダーが開発されています
- Google DeepMind(グーグルディープマインド)が「GNoME(グノーム)」を発表:新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール
- 「PGXMANを紹介する:PostgreSQLの拡張機能マネージャーとの出会い」
- 「言語モデルにおける連鎖思考推論の力を明らかにする 認知能力、解釈可能性、自律言語エージェントに関する包括的な調査」