メタAIは、SeamlessM4Tを発表しましたこれは、音声とテキストの両方でシームレスに翻訳と転写を行うための基盤となる多言語・マルチタスクモデルです

メタAIは、SeamlessM4Tを発表しましたこれは、音声とテキストの両方でシームレスに翻訳と転写を行うための基盤です

相互作用がますますグローバル化する世界において、多言語を話すことは隔たりを埋め、理解を促進し、様々な機会の扉を開くことができます。複数の言語を学ぶことは、言語の構造や言語学に対する洞察を提供し、コミュニケーションと思考のメカニズムに対する理解を深めることができます。これは特に、異文化間の相互作用が一般的な今日のグローバル化された世界で特に貴重です。人間とAIの間でもこの橋が埋まる必要があると思いませんか?

MetaAIとUC Berkleyの研究者たちは、音声とテキストの間でシームレスに翻訳と転写を行う基礎的な多言語およびマルチタスクモデルを提案しています。彼らはそれを「SeamlessM4T」と呼んでいます。名前のM4Tは、Massively Multilingual and Multimodal Machine Translationを表しています。これは、100言語までの音声からテキスト、音声から音声、テキストから音声、テキストからテキストへの翻訳、および自動音声認識を備えたAIモデルです。

Babel Fish(オンライン翻訳サービス)を知らない人はいませんよね?それにはどんな問題があるのでしょうか?Babel Fishは音声から音声への翻訳システムです。このような種類のさまざまな既存のシステムは、英語、スペイン語、フランス語など、高リソースの言語に焦点を当てる傾向があり、多くの低リソースの言語を後回しにしています。彼らのサービスは主に英語から他の言語への翻訳であり、逆の場合はほとんどありません。これらのシステムは、複数のサブシステムから構成されるカスケードシステムに依存しているため、性能がカスケードと比較して追いついていないのです。

これらの制限を解消するために、研究者たちは100万時間以上のオープンスピーチオーディオデータを使用してセルフスーパーバイズドスピーチを学習しました。彼らは470,000時間以上の自動的に整列した音声翻訳のマルチモーダルコーパスを作成しました!背景ノイズと話者に対するモデルの堅牢性を評価するために、彼らは堅牢性のベンチマークを作成し、それぞれ38%と49%の改善を見つけました。

研究者たちは、安全で堅牢なパフォーマンスを確保するために、ワークフロー全体でシステムの体系的な評価を維持しました。彼らはクローズドデータの使用に代わる並行データマイニングを使用しました。この方法は、さまざまな言語の文を固定サイズの埋め込み空間にエンコードし、類似度メトリックに基づいて並行インスタンスを見つけることを含みます。

テキストと音声の翻訳に関わるすべてのタスクを処理できる統一された大規模モデルを作成することは、次世代のデバイス内およびオンデマンドのマルチモーダル翻訳の重要な基盤を築きます。彼らは、この理念を主に念頭に置いて言語技術が開発されると、世界の半数の人々のニーズが解決され、高リソースと低リソースの言語を話す人々の間のギャップを埋めるために世界をリードする方向に進むと述べています。

研究者たちは、SeamlessM4Tのパフォーマンスがスラングや固有名詞の翻訳において高リソースと低リソースの言語間でより一貫性が必要かもしれないと述べています。彼らの将来の仕事は、母国語とスラングに基づいたより友好的で穏やかな会話を実現するために、この制限を解消することです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「Stack Overflowは、OverflowAIによって開発者サポートを革新します」

Stack Overflowは、技術的な回答を求める開発者向けの有名なプラットフォームです。革新的なOverflowAIの提供により、生成型A...

人工知能

あなたのビジネスに適応型AIを実装する方法

人工知能は、多様な産業においてビジネスの大きな変革をもたらすことができる強力な技術として現れましたしかし、従来の機械...

AI研究

「ユーレカ!NVIDIAの研究によるロボット学習の新たな進展」

ロボットに複雑なスキルを教えることができるNVIDIA Researchによって開発された新しいAIエージェントは、ロボットの手にペン...

AI研究

インディアナ大学の研究者たちは、「Brainoware」という最先端の人工知能技術を発表しましたこの技術は、脳器官のようなオルガノイドとシリコンチップからインスピレーションを受けています

生物学の原理と技術革新の融合により、人工知能(AI)の著しい進歩が得られてきました。インディアナ大学ブルーミントン校の...

データサイエンス

データのアルトリズム:企業エンジンのデジタル燃料

デジタル経済は、知識と情報への均等で迅速かつ無料のアクセスという素晴らしい約束に基づいて構築されてきましたそれから長...

データサイエンス

「もし私たちが複雑過ぎるモデルを簡単に説明できるとしたらどうだろう?」

この記事は次の記事に基づいています:https//www.sciencedirect.com/science/article/abs/pii/S0377221723006598 これを読ん...