CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

CMUの研究者がMultiModal Graph Learning(MMGL)を導入!「複数の多様な隣接情報から関係構造を抽出する新たなAIフレームワーク」として紹介

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相互接続を含む複雑な問題を解決するための多学科的な分野です。多モーダルグラフ学習は、視覚データとテキスト情報を組み合わせることで画像の記述的なキャプションを生成することができます。クエリに基づいて関連する画像やテキストドキュメントを検索する精度を向上させることができます。多モーダルグラフ学習は、カメラ、LiDAR、レーダー、GPSなどのさまざまなセンサからのデータを組み合わせて知覚を向上させ、適切な運転の決定をするために自律型車両でも使用されています。

現在のモデルは、事前学習された画像エンコーダとLMを使用して、与えられたテキスト/画像上で画像/テキストを生成することに依存しています。入力として、明確な1対1のマッピングを持つペアモダリティの方法を使用します。多モーダルグラフ学習の文脈では、モダリティとはデータおよび情報ソースの異なるタイプまたはモードを指します。各モダリティは、データの特定のカテゴリや側面を表し、異なる形式を取ることができます。問題は、これらのモデルをモダリティ間の多対多のマッピングに適用するときに発生します。

カーネギーメロン大学の研究者は、生成タスク用の多モーダルグラフ学習の一般的かつ体系的なフレームワークを提案しています。彼らの手法は、それ自体との関係構造を持つ複数の多モーダルな近傍から情報を取得することを含みます。彼らは、複雑な関係をグラフとして表現し、モダリティの数とモダリティ間の複雑な関係を柔軟に変化させることができます。

彼らのモデルは、隣接エンコーディングを抽出し、グラフ構造と組み合わせ、パラメータ効率の良い微調整を行います。多対多のマッピングを完全に理解するために、チームはテキストと埋込みを使用したセルフアテンション、単に埋め込みを使用したセルフアテンション、および埋込みを使用したクロスアテンションなどの近傍エンコーディングモデルを研究しました。彼らは、ラプラシアン固有ベクトル位置エンコーディング(LPE)とグラフニューラルネットワークエンコーディング(GNN)を使用して順序位置エンコーディングを比較しました。

微調整は、通常、ターゲットタスクに特化したラベル付きデータが必要です。関連するデータセットを既に持っているか、合理的なコストで入手できる場合、微調整はゼロからモデルをトレーニングするよりも費用効果が高い場合があります。研究者は、自己注意とテキストおよび埋め込みを使用したSA-TEのためのプレフィックスチューニングとLoRA、埋め込みモデルとのクロスアテンションのためのフラミンゴスタイルの微調整を使用します。彼らは、SA-TE近傍エンコーディングでほぼ4倍少ないパラメータを使用するプレフィックスチューニングがコストを低下させることを見つけました。

彼らの研究成果は、将来のMMGL研究とその分野での探求のための基礎を築くための深い分析です。研究者は、将来の多モーダルグラフ学習の範囲は期待され、機械学習、データ収集の進歩、およびさまざまなアプリケーションでの複雑な多モーダルデータの取り扱いの必要性によって大幅に拡大すると述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

スタビリティAIが安定したオーディオを導入:テキストプロンプトからオーディオクリップを生成できる新しい人工知能モデル

Stability AIは、画期的な技術であるStable Audioを発表しました。これは、オーディオ生成の分野における大きな進歩を示すも...

人工知能

GPT-エンジニア:あなたの新しいAIコーディングアシスタント

GPT-Engineerは、プロジェクトの説明からコードベースを生成するAIパワードのアプリケーションビルダーですこれにより、キー...

AI研究

スタンフォード大学の研究者が『FlashFFTConv』を導入:長いシーケンスのFFT畳み込みを最適化するための新しい人工知能システム

効率的な推論は、機械学習において長いシーケンスを取り扱う上での主要な困難です。最近では、畳み込みがシーケンスモデリン...

AI研究

中国の新しいAI研究は、ハードウェアラスタライゼーションをサポートし、前例のないレンダリング速度を実現する4Dポイントクラウド表現である4K4Dを提案しています

Dynamic view synthesisは、キャプチャされたビデオから動的な3Dシーンを再構築し、没入型の仮想再生を作成するプロセスです...

人工知能

「ボイスディープフェイクがあなたの銀行残高を脅かしています」

「人工知能のツールは、詐欺師が人々を騙してお金を送らせるための強力な武器となっています」

AIニュース

このAI論文は、「サブセンテンスエンコーダーを紹介します:テキストの細かい意味表現のための対照的に学習されたコンテクスト埋め込みAIモデル」という意味です

ペンシルベニア大学、ワシントン大学、テンセントAI Labの研究者は、サブセントエンコーダーを提案しています。これは対照的...