ソルボンヌ大学の研究者は、画像、ビデオ、音声、言語のタスクに対する統合AIモデル「UnIVAL」を紹介しました

Researchers from Sorbonne University have introduced the integrated AI model UnIVAL for tasks involving images, videos, audio, and language.

一般的なモデルを作成するための大きな進歩の一つは、大規模な言語モデル(LLM)の出現です。彼らの驚異的なテキスト理解および生成パフォーマンスは、通常、Transformerアーキテクチャおよび単一の次のトークン予測目標に基づいています。しかし、彼らは現在、テキスト以外の情報にアクセスすることができないため、制約があります。これは、さまざまなモダリティを使用してさまざまなタスクを実行できる信頼性のあるマルチモーダルモデルの要求を強調しています。

最近の取り組みでは、より強力なマルチモーダルモデルを構築するためのタスク/モダリティ特有の技術の改善が試みられています。これらの方法のいくつかは、画像/ビデオ-テキストなど2つ以上のモダリティを含めることを目指していますが、これらの取り組みのほとんどは、画像-テキストの仕事に専念しています。

この問題に対処するため、ソルボンヌ大学の研究者は、どんな問題にも対応できる汎用モデルを開発することから始めました。彼らはUnIVALという手法を導入しました。UnIVALは、単一のモダリティに依存しない方法です。UnIVALは、テキスト、画像、ビデオ、音声の4つのモダリティを統合しています。

UnIVALは、統一されたアーキテクチャ、語彙、入出力形式、およびトレーニング目標を使用して、画像、ビデオ、音声の言語の課題を解決する最初のモデルです。大量のデータや巨大なモデルサイズを必要とせずに、0.25億のパラメータモデルは、特定のモダリティに合わせた従来のアートと同等のパフォーマンスを提供します。研究者たちは同じサイズのモデルでいくつかの仕事で新たなSoTAを得ました。

彼らの事前トレーニングタスクおよびモダリティ間の知識の相互作用と転送に関する研究は、従来の単一タスクの事前トレーニングと比較して、マルチタスクの事前トレーニングの価値を示しています。彼らはまた、モデルを追加のモダリティで事前トレーニングすることが、未訓練のモダリティへの一般化を改善することを発見しました。特に、音声-テキストの問題でFine-tuneされた場合、UnIVALは音声の事前トレーニングなしでSoTAと競争力のあるパフォーマンスを達成することができます。

以前の研究に基づいて、チームはまた、重み補間によるマルチモーダルモデルの結合に関する新しい調査を発表しています。彼らは、重み空間での補間が、複数のFine-tuneされた重みのスキルを成功裏に結合し、さまざまなマルチモーダルタスクに対して統一された事前トレーニングモデルを使用する際に、推論のオーバーヘッドを必要としないより堅牢なマルチタスクモデルを作成することができることを示しています。マルチモーダルベースラインモデルにおける重み補間は、これまでテストされたことがありませんでしたが、この研究は初めて成功させたものです。

研究者たちはまた、UnIVALの2つの重要な欠点についても言及しています:

  1. UnIVALは幻覚に対して弱いです。特に、視覚的な説明で新しいオブジェクトを発明する場合があります(オブジェクトのバイアス)。それは正確さよりも一貫性に重点を置く傾向があります。
  2. 複雑な指示の追跡に問題があります。複雑な指示(例:似たような物の中から1つの物を選ぶ、遠くまたは極端に近いものを見つける、数字を認識するなど)が与えられた場合、モデルのパフォーマンスが低下することがわかりました。

研究者たちは、彼らの研究結果が他の科学者を刺激し、モダリティに依存しない汎用アシスタントエージェントの構築プロセスを加速することを願っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

MicrosoftエンジニアのAIイノベーションとリーダーシップへのガイド

「マイクロソフトのシニアソフトウェアエンジニア、マナス・ジョシとともにAIイノベーションの洞察に飛び込もう:次世代のた...

機械学習

機械学習をマスターするための無料の5つのコース

「機械学習モデルの学習と構築に興奮していますか? 今日から無料の機械学習コースを学び始めましょう」

機械学習

「TableGPTという統合された微調整フレームワークにより、LLMが外部の機能コマンドを使用してテーブルを理解し、操作できるようになります」

表は、財務分析、サプライチェーン管理、ヘルスケア分析など、さまざまなコンテキストでデータ駆動型の意思決定の基盤として...

AI研究

新しいMicrosoft AI研究では、HMD-NeMoを提案していますこの新しい手法では、手が部分的にしか見えていない場合でも、信憑性のある正確な全身運動生成に取り組んでいます

ミックスリアリティシナリオにおける没入型体験の領域では、正確かつ信憑性のある全身アバターの動きを生成することが持続的...

機械学習

AIキャリアのトレンド:人工知能の世界で注目されているものは何ですか?

急速に成長しているAI分野でのキャリアをお探しですか?エキサイティングな機会を提供するAIキャリアのトップ6つを発見してく...

機械学習

「DreamSyncに会ってください:画像理解モデルからのフィードバックを用いてテキストから画像の合成を改良する新しい人工知能フレームワーク」

カリフォルニア大学南部、ワシントン大学、バール・イラム大学、およびGoogle Researchの研究者は、人間の注釈、モデルアーキ...