メタAIは、SeamlessM4Tを発表しましたこれは、音声とテキストの両方でシームレスに翻訳と転写を行うための基盤となる多言語・マルチタスクモデルです

メタAIは、SeamlessM4Tを発表しましたこれは、音声とテキストの両方でシームレスに翻訳と転写を行うための基盤です

相互作用がますますグローバル化する世界において、多言語を話すことは隔たりを埋め、理解を促進し、様々な機会の扉を開くことができます。複数の言語を学ぶことは、言語の構造や言語学に対する洞察を提供し、コミュニケーションと思考のメカニズムに対する理解を深めることができます。これは特に、異文化間の相互作用が一般的な今日のグローバル化された世界で特に貴重です。人間とAIの間でもこの橋が埋まる必要があると思いませんか?

MetaAIとUC Berkleyの研究者たちは、音声とテキストの間でシームレスに翻訳と転写を行う基礎的な多言語およびマルチタスクモデルを提案しています。彼らはそれを「SeamlessM4T」と呼んでいます。名前のM4Tは、Massively Multilingual and Multimodal Machine Translationを表しています。これは、100言語までの音声からテキスト、音声から音声、テキストから音声、テキストからテキストへの翻訳、および自動音声認識を備えたAIモデルです。

Babel Fish(オンライン翻訳サービス)を知らない人はいませんよね?それにはどんな問題があるのでしょうか?Babel Fishは音声から音声への翻訳システムです。このような種類のさまざまな既存のシステムは、英語、スペイン語、フランス語など、高リソースの言語に焦点を当てる傾向があり、多くの低リソースの言語を後回しにしています。彼らのサービスは主に英語から他の言語への翻訳であり、逆の場合はほとんどありません。これらのシステムは、複数のサブシステムから構成されるカスケードシステムに依存しているため、性能がカスケードと比較して追いついていないのです。

これらの制限を解消するために、研究者たちは100万時間以上のオープンスピーチオーディオデータを使用してセルフスーパーバイズドスピーチを学習しました。彼らは470,000時間以上の自動的に整列した音声翻訳のマルチモーダルコーパスを作成しました!背景ノイズと話者に対するモデルの堅牢性を評価するために、彼らは堅牢性のベンチマークを作成し、それぞれ38%と49%の改善を見つけました。

研究者たちは、安全で堅牢なパフォーマンスを確保するために、ワークフロー全体でシステムの体系的な評価を維持しました。彼らはクローズドデータの使用に代わる並行データマイニングを使用しました。この方法は、さまざまな言語の文を固定サイズの埋め込み空間にエンコードし、類似度メトリックに基づいて並行インスタンスを見つけることを含みます。

テキストと音声の翻訳に関わるすべてのタスクを処理できる統一された大規模モデルを作成することは、次世代のデバイス内およびオンデマンドのマルチモーダル翻訳の重要な基盤を築きます。彼らは、この理念を主に念頭に置いて言語技術が開発されると、世界の半数の人々のニーズが解決され、高リソースと低リソースの言語を話す人々の間のギャップを埋めるために世界をリードする方向に進むと述べています。

研究者たちは、SeamlessM4Tのパフォーマンスがスラングや固有名詞の翻訳において高リソースと低リソースの言語間でより一貫性が必要かもしれないと述べています。彼らの将来の仕事は、母国語とスラングに基づいたより友好的で穏やかな会話を実現するために、この制限を解消することです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

PaaS4GenAI Oracle Integration CloudからIBM Cloudプラットフォーム上のGenerative AI (WatsonX)との接続

「オラクル統合クラウドとIBMクラウドプラットフォーム上のGenerative AI WatsonXを活用したマルチクラウド接続のソリューシ...

データサイエンス

データから真実を解読する:大きな言語モデルが真実をモデル化するためにパーソナを使用する方法

大型言語モデル(LLM)の導入により、人工知能のサブフィールドである自然言語処理(NLP)は大幅に進化し改善されています。...

AIニュース

OpenAIはGPT-3.5 Turboのファインチューニングによるカスタムパワーを解放します

人工知能の絶え間なく進化する世界で、OpenAIは革命的なアップデートを解放しました。それは、私たちが機械とどのようにイン...

AIニュース

「生成AIにおける高度なエンコーダとデコーダの力」

はじめに 人工知能のダイナミックな領域では、技術と創造性の融合が人間の想像力の限界を押し上げる革新的なツールを生み出し...

機械学習

「EコマースにおけるLLMSを使用したカスタマイズされたマーケティングコピーライティング」

紹介 技術革新と急速なデジタル化によって定義される時代において、Eコマースは現代のビジネスの基盤となっています。グロー...

機械学習

API管理を使用してAIパワードJavaアプリを管理する

OpenAIのChatGPT APIをSpring Bootアプリケーションに統合し、オープンソースのAPIゲートウェイであるApache APISIXを使用し...