メタAIは、SeamlessM4Tを発表しましたこれは、音声とテキストの両方でシームレスに翻訳と転写を行うための基盤となる多言語・マルチタスクモデルです

メタAIは、SeamlessM4Tを発表しましたこれは、音声とテキストの両方でシームレスに翻訳と転写を行うための基盤です

相互作用がますますグローバル化する世界において、多言語を話すことは隔たりを埋め、理解を促進し、様々な機会の扉を開くことができます。複数の言語を学ぶことは、言語の構造や言語学に対する洞察を提供し、コミュニケーションと思考のメカニズムに対する理解を深めることができます。これは特に、異文化間の相互作用が一般的な今日のグローバル化された世界で特に貴重です。人間とAIの間でもこの橋が埋まる必要があると思いませんか?

MetaAIとUC Berkleyの研究者たちは、音声とテキストの間でシームレスに翻訳と転写を行う基礎的な多言語およびマルチタスクモデルを提案しています。彼らはそれを「SeamlessM4T」と呼んでいます。名前のM4Tは、Massively Multilingual and Multimodal Machine Translationを表しています。これは、100言語までの音声からテキスト、音声から音声、テキストから音声、テキストからテキストへの翻訳、および自動音声認識を備えたAIモデルです。

Babel Fish(オンライン翻訳サービス)を知らない人はいませんよね?それにはどんな問題があるのでしょうか?Babel Fishは音声から音声への翻訳システムです。このような種類のさまざまな既存のシステムは、英語、スペイン語、フランス語など、高リソースの言語に焦点を当てる傾向があり、多くの低リソースの言語を後回しにしています。彼らのサービスは主に英語から他の言語への翻訳であり、逆の場合はほとんどありません。これらのシステムは、複数のサブシステムから構成されるカスケードシステムに依存しているため、性能がカスケードと比較して追いついていないのです。

これらの制限を解消するために、研究者たちは100万時間以上のオープンスピーチオーディオデータを使用してセルフスーパーバイズドスピーチを学習しました。彼らは470,000時間以上の自動的に整列した音声翻訳のマルチモーダルコーパスを作成しました!背景ノイズと話者に対するモデルの堅牢性を評価するために、彼らは堅牢性のベンチマークを作成し、それぞれ38%と49%の改善を見つけました。

研究者たちは、安全で堅牢なパフォーマンスを確保するために、ワークフロー全体でシステムの体系的な評価を維持しました。彼らはクローズドデータの使用に代わる並行データマイニングを使用しました。この方法は、さまざまな言語の文を固定サイズの埋め込み空間にエンコードし、類似度メトリックに基づいて並行インスタンスを見つけることを含みます。

テキストと音声の翻訳に関わるすべてのタスクを処理できる統一された大規模モデルを作成することは、次世代のデバイス内およびオンデマンドのマルチモーダル翻訳の重要な基盤を築きます。彼らは、この理念を主に念頭に置いて言語技術が開発されると、世界の半数の人々のニーズが解決され、高リソースと低リソースの言語を話す人々の間のギャップを埋めるために世界をリードする方向に進むと述べています。

研究者たちは、SeamlessM4Tのパフォーマンスがスラングや固有名詞の翻訳において高リソースと低リソースの言語間でより一貫性が必要かもしれないと述べています。彼らの将来の仕事は、母国語とスラングに基づいたより友好的で穏やかな会話を実現するために、この制限を解消することです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

Ludwig - より「フレンドリーな」ディープラーニングフレームワーク

産業用途の深層学習については、私は避ける傾向があります興味がないわけではなく、むしろ人気のある深層学習フレームワーク...

AIニュース

「KPMG、AIに20億ドル以上の賭けをし、120億ドルの収益を目指す」

技術革新の急速なペースを強調する大胆な動きとして、主要なプロフェッショナルサービス企業であるKPMGは、生成型AIへの大幅...

データサイエンス

機械学習を直感的に理解する

確かに、ChatGPTのようなモデルの実際の理論は認めるには非常に難しいですが、機械学習(ML)の根底にある直感は、まあ、直感...

AIニュース

「アジア太平洋地域でAIスタートアップを創出する女性のための新たなファンド」

今日、アジア太平洋地域のスタートアップのうち、女性創業者を持つのはわずか5.7%だけですこの割合は過去5年間で停滞してい...

AI研究

「ジョンズ・ホプキンス大学の研究者たちは、がんに関連するタンパク質フラグメントを正確に予測することができる深層学習技術を開発しました」

ジョンズ・ホプキンス大学のエンジニアとがん研究者は、最先端の深層学習技術を駆使して、個別のがん治療における画期的な突...

機械学習

RayはNVIDIA AIとの協業により、開発者が製品向けのLLMを構築、調整、トレーニング、スケールアップするのを支援します

大規模言語モデルの開発は、NVIDIAとAnyscaleのコラボレーションにより、超音速の速さに達する予定です。 Anyscaleは、急速に...