ソルボンヌ大学の研究者は、画像、ビデオ、音声、言語のタスクに対する統合AIモデル「UnIVAL」を紹介しました

Researchers from Sorbonne University have introduced the integrated AI model UnIVAL for tasks involving images, videos, audio, and language.

一般的なモデルを作成するための大きな進歩の一つは、大規模な言語モデル(LLM)の出現です。彼らの驚異的なテキスト理解および生成パフォーマンスは、通常、Transformerアーキテクチャおよび単一の次のトークン予測目標に基づいています。しかし、彼らは現在、テキスト以外の情報にアクセスすることができないため、制約があります。これは、さまざまなモダリティを使用してさまざまなタスクを実行できる信頼性のあるマルチモーダルモデルの要求を強調しています。

最近の取り組みでは、より強力なマルチモーダルモデルを構築するためのタスク/モダリティ特有の技術の改善が試みられています。これらの方法のいくつかは、画像/ビデオ-テキストなど2つ以上のモダリティを含めることを目指していますが、これらの取り組みのほとんどは、画像-テキストの仕事に専念しています。

この問題に対処するため、ソルボンヌ大学の研究者は、どんな問題にも対応できる汎用モデルを開発することから始めました。彼らはUnIVALという手法を導入しました。UnIVALは、単一のモダリティに依存しない方法です。UnIVALは、テキスト、画像、ビデオ、音声の4つのモダリティを統合しています。

UnIVALは、統一されたアーキテクチャ、語彙、入出力形式、およびトレーニング目標を使用して、画像、ビデオ、音声の言語の課題を解決する最初のモデルです。大量のデータや巨大なモデルサイズを必要とせずに、0.25億のパラメータモデルは、特定のモダリティに合わせた従来のアートと同等のパフォーマンスを提供します。研究者たちは同じサイズのモデルでいくつかの仕事で新たなSoTAを得ました。

彼らの事前トレーニングタスクおよびモダリティ間の知識の相互作用と転送に関する研究は、従来の単一タスクの事前トレーニングと比較して、マルチタスクの事前トレーニングの価値を示しています。彼らはまた、モデルを追加のモダリティで事前トレーニングすることが、未訓練のモダリティへの一般化を改善することを発見しました。特に、音声-テキストの問題でFine-tuneされた場合、UnIVALは音声の事前トレーニングなしでSoTAと競争力のあるパフォーマンスを達成することができます。

以前の研究に基づいて、チームはまた、重み補間によるマルチモーダルモデルの結合に関する新しい調査を発表しています。彼らは、重み空間での補間が、複数のFine-tuneされた重みのスキルを成功裏に結合し、さまざまなマルチモーダルタスクに対して統一された事前トレーニングモデルを使用する際に、推論のオーバーヘッドを必要としないより堅牢なマルチタスクモデルを作成することができることを示しています。マルチモーダルベースラインモデルにおける重み補間は、これまでテストされたことがありませんでしたが、この研究は初めて成功させたものです。

研究者たちはまた、UnIVALの2つの重要な欠点についても言及しています:

  1. UnIVALは幻覚に対して弱いです。特に、視覚的な説明で新しいオブジェクトを発明する場合があります(オブジェクトのバイアス)。それは正確さよりも一貫性に重点を置く傾向があります。
  2. 複雑な指示の追跡に問題があります。複雑な指示(例:似たような物の中から1つの物を選ぶ、遠くまたは極端に近いものを見つける、数字を認識するなど)が与えられた場合、モデルのパフォーマンスが低下することがわかりました。

研究者たちは、彼らの研究結果が他の科学者を刺激し、モダリティに依存しない汎用アシスタントエージェントの構築プロセスを加速することを願っています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

AIは発明できるのか?

法律の専門家グループが特許庁、裁判所、政策立案者に問題に対処するよう求めていますジェネレーティブAIは、他の独自の人間...

コンピュータサイエンス

マシュー・カーニー:AIと哲学を対話させる

コンピューターサイエンスと哲学のダブル専攻は、AI倫理の分野を推進することを目的としています

データサイエンス

オレゴン大学とアドビの研究者がCulturaXを紹介します:大規模言語モデル(LLM)の開発に適した167の言語で6.3Tのトークンを持つ多言語データセット

大規模言語モデル(LLM)は、幅広いタスクで最先端のパフォーマンスを劇的に向上させ、新たな新興スキルを明らかにすることに...

データサイエンス

「PUGに会ってください:メタAIによるアンリアルエンジンを使用したフォトリアルで意味的に制御可能なデータセットを用いた堅牢なモデル評価に関する新しいAI研究」

データの表現を学び、タスク間で応用できるようにすることは、機械学習における高い目標です。評価とトレーニングのための大...

AI研究

UCSDとMicrosoftの研究者がColDecoを導入:計算されたカラムのためのノーコード検査ツール

UCSDとMicrosoftの研究チームが開発した「COLDECO:AIによって生成されたコードのエンドユーザ用スプレッドシート検査ツール...

AIニュース

AIを使用してKYC登録が簡単になりました

キャピタルマーケットのプレーヤーは、CAMSKRAのAI組み込みKYCソリューションのおかげで、長くて手間のかかるKYC登録プロセス...