CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

CMUの研究者がMultiModal Graph Learning(MMGL)を導入!「複数の多様な隣接情報から関係構造を抽出する新たなAIフレームワーク」として紹介

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相互接続を含む複雑な問題を解決するための多学科的な分野です。多モーダルグラフ学習は、視覚データとテキスト情報を組み合わせることで画像の記述的なキャプションを生成することができます。クエリに基づいて関連する画像やテキストドキュメントを検索する精度を向上させることができます。多モーダルグラフ学習は、カメラ、LiDAR、レーダー、GPSなどのさまざまなセンサからのデータを組み合わせて知覚を向上させ、適切な運転の決定をするために自律型車両でも使用されています。

現在のモデルは、事前学習された画像エンコーダとLMを使用して、与えられたテキスト/画像上で画像/テキストを生成することに依存しています。入力として、明確な1対1のマッピングを持つペアモダリティの方法を使用します。多モーダルグラフ学習の文脈では、モダリティとはデータおよび情報ソースの異なるタイプまたはモードを指します。各モダリティは、データの特定のカテゴリや側面を表し、異なる形式を取ることができます。問題は、これらのモデルをモダリティ間の多対多のマッピングに適用するときに発生します。

カーネギーメロン大学の研究者は、生成タスク用の多モーダルグラフ学習の一般的かつ体系的なフレームワークを提案しています。彼らの手法は、それ自体との関係構造を持つ複数の多モーダルな近傍から情報を取得することを含みます。彼らは、複雑な関係をグラフとして表現し、モダリティの数とモダリティ間の複雑な関係を柔軟に変化させることができます。

彼らのモデルは、隣接エンコーディングを抽出し、グラフ構造と組み合わせ、パラメータ効率の良い微調整を行います。多対多のマッピングを完全に理解するために、チームはテキストと埋込みを使用したセルフアテンション、単に埋め込みを使用したセルフアテンション、および埋込みを使用したクロスアテンションなどの近傍エンコーディングモデルを研究しました。彼らは、ラプラシアン固有ベクトル位置エンコーディング(LPE)とグラフニューラルネットワークエンコーディング(GNN)を使用して順序位置エンコーディングを比較しました。

微調整は、通常、ターゲットタスクに特化したラベル付きデータが必要です。関連するデータセットを既に持っているか、合理的なコストで入手できる場合、微調整はゼロからモデルをトレーニングするよりも費用効果が高い場合があります。研究者は、自己注意とテキストおよび埋め込みを使用したSA-TEのためのプレフィックスチューニングとLoRA、埋め込みモデルとのクロスアテンションのためのフラミンゴスタイルの微調整を使用します。彼らは、SA-TE近傍エンコーディングでほぼ4倍少ないパラメータを使用するプレフィックスチューニングがコストを低下させることを見つけました。

彼らの研究成果は、将来のMMGL研究とその分野での探求のための基礎を築くための深い分析です。研究者は、将来の多モーダルグラフ学習の範囲は期待され、機械学習、データ収集の進歩、およびさまざまなアプリケーションでの複雑な多モーダルデータの取り扱いの必要性によって大幅に拡大すると述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「トランスフォーマーは長い入力をどのように扱うのか?CMUとGoogleの研究者が新しいアプローチを発表(FIRE):相対位置エンコーディングのための機能的補間」

Transformerベースの言語モデルは、近年、自然言語処理(NLP)の領域を引き上げてきました。人間らしいテキストを理解し生成...

機械学習

「AI時代における学術的誠実性の再考:ChatGPTと32のコースの大学生の比較分析」

機械学習アルゴリズムを使用して以前に作成されたテキスト、音声、または視覚情報を元に新しいコンテンツを生成する人工知能...

AI研究

ETHチューリッヒの研究者たちは、LMQLという言語モデルとの相互作用のためのプログラミング言語を紹介しました

大規模な言語モデルの性能は、質問応答やコード生成などのさまざまなタスクで印象的でした。言語モデルは、入力に基づいてシ...

AI研究

スタンフォードの研究者が「予測音楽トランスフォーマー」を紹介:音楽作曲における創造的な制御を向上させる画期的なAIツール

美しい画像や感動的なエッセイを生成するジェネレーティブAIは、多くの場合、ユーザーにはほとんど制御が残されません。一部...

機械学習

CPR-CoachによるCPRトレーニングの革命:エラー認識と評価に人工知能を活用

心肺蘇生(CPR)は、心臓が効果的に拍動しなくなったり、呼吸が止まるといった心停止を経験した個人を蘇生させるための命を救...

データサイエンス

「データからドルへ:線形回帰の利用」

「データに基づく意思決定はあらゆる業界の企業にとってゲームチェンジャーとなっていますマーケティング戦略の最適化から顧...