CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

CMUの研究者がMultiModal Graph Learning(MMGL)を導入!「複数の多様な隣接情報から関係構造を抽出する新たなAIフレームワーク」として紹介

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相互接続を含む複雑な問題を解決するための多学科的な分野です。多モーダルグラフ学習は、視覚データとテキスト情報を組み合わせることで画像の記述的なキャプションを生成することができます。クエリに基づいて関連する画像やテキストドキュメントを検索する精度を向上させることができます。多モーダルグラフ学習は、カメラ、LiDAR、レーダー、GPSなどのさまざまなセンサからのデータを組み合わせて知覚を向上させ、適切な運転の決定をするために自律型車両でも使用されています。

現在のモデルは、事前学習された画像エンコーダとLMを使用して、与えられたテキスト/画像上で画像/テキストを生成することに依存しています。入力として、明確な1対1のマッピングを持つペアモダリティの方法を使用します。多モーダルグラフ学習の文脈では、モダリティとはデータおよび情報ソースの異なるタイプまたはモードを指します。各モダリティは、データの特定のカテゴリや側面を表し、異なる形式を取ることができます。問題は、これらのモデルをモダリティ間の多対多のマッピングに適用するときに発生します。

カーネギーメロン大学の研究者は、生成タスク用の多モーダルグラフ学習の一般的かつ体系的なフレームワークを提案しています。彼らの手法は、それ自体との関係構造を持つ複数の多モーダルな近傍から情報を取得することを含みます。彼らは、複雑な関係をグラフとして表現し、モダリティの数とモダリティ間の複雑な関係を柔軟に変化させることができます。

彼らのモデルは、隣接エンコーディングを抽出し、グラフ構造と組み合わせ、パラメータ効率の良い微調整を行います。多対多のマッピングを完全に理解するために、チームはテキストと埋込みを使用したセルフアテンション、単に埋め込みを使用したセルフアテンション、および埋込みを使用したクロスアテンションなどの近傍エンコーディングモデルを研究しました。彼らは、ラプラシアン固有ベクトル位置エンコーディング(LPE)とグラフニューラルネットワークエンコーディング(GNN)を使用して順序位置エンコーディングを比較しました。

微調整は、通常、ターゲットタスクに特化したラベル付きデータが必要です。関連するデータセットを既に持っているか、合理的なコストで入手できる場合、微調整はゼロからモデルをトレーニングするよりも費用効果が高い場合があります。研究者は、自己注意とテキストおよび埋め込みを使用したSA-TEのためのプレフィックスチューニングとLoRA、埋め込みモデルとのクロスアテンションのためのフラミンゴスタイルの微調整を使用します。彼らは、SA-TE近傍エンコーディングでほぼ4倍少ないパラメータを使用するプレフィックスチューニングがコストを低下させることを見つけました。

彼らの研究成果は、将来のMMGL研究とその分野での探求のための基礎を築くための深い分析です。研究者は、将来の多モーダルグラフ学習の範囲は期待され、機械学習、データ収集の進歩、およびさまざまなアプリケーションでの複雑な多モーダルデータの取り扱いの必要性によって大幅に拡大すると述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「従業員は職場でChatGPTを望む上司は秘密を漏らすことを心配している」

一部の企業リーダーは、会社や顧客の機密情報が公開されることへの懸念から、生成型人工知能ツールの使用を禁止しています

AI研究

デューク大学の研究者たちは、ポリシーステッチングを提案していますこれは、ロボットとタスクの新しい組み合わせにおけるロボットの転送学習を容易にする、画期的なAIフレームワークです

ロボット工学では、環境の変化やロボット構造の変更に敏感なスキルをロボットに教えるために、強化学習(RL)を使用する際に...

機械学習

ラミニAIに会ってください:開発者が簡単にChatGPTレベルの言語モデルをトレーニングすることができる、革命的なLLMエンジン

LLMをゼロから教えることは難しいです。なぜなら、微調整されたモデルがなぜ失敗するのかを理解するのには時間がかかり、小さ...

データサイエンス

ビジネスにおける機械学習オペレーションの構築

私のキャリアで気づいたことは、成功したAI戦略の鍵は機械学習モデルを本番環境に展開し、それによって商業的な可能性をスケ...

AIニュース

「Amazon LexをLLMsで強化し、URLの取り込みを使用してFAQの体験を向上させる」

「現代のデジタル世界では、ほとんどの消費者は、ビジネスやサービスプロバイダに問い合わせるために時間をかけるよりも、自...

機械学習

「IBM、HuggingFace、そしてNASAがWatsonx․ai Foundation Modelをオープンソース化 NASA初の公開可能なAI基盤モデルであり、HuggingFace上で最大の地理空間モデル」

IBMとオープンソースのAIプラットフォームであるHugging Faceは、watsonx.ai地理空間基盤モデルのリリースを共同で発表しまし...