CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

CMUの研究者がMultiModal Graph Learning(MMGL)を導入!「複数の多様な隣接情報から関係構造を抽出する新たなAIフレームワーク」として紹介

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相互接続を含む複雑な問題を解決するための多学科的な分野です。多モーダルグラフ学習は、視覚データとテキスト情報を組み合わせることで画像の記述的なキャプションを生成することができます。クエリに基づいて関連する画像やテキストドキュメントを検索する精度を向上させることができます。多モーダルグラフ学習は、カメラ、LiDAR、レーダー、GPSなどのさまざまなセンサからのデータを組み合わせて知覚を向上させ、適切な運転の決定をするために自律型車両でも使用されています。

現在のモデルは、事前学習された画像エンコーダとLMを使用して、与えられたテキスト/画像上で画像/テキストを生成することに依存しています。入力として、明確な1対1のマッピングを持つペアモダリティの方法を使用します。多モーダルグラフ学習の文脈では、モダリティとはデータおよび情報ソースの異なるタイプまたはモードを指します。各モダリティは、データの特定のカテゴリや側面を表し、異なる形式を取ることができます。問題は、これらのモデルをモダリティ間の多対多のマッピングに適用するときに発生します。

カーネギーメロン大学の研究者は、生成タスク用の多モーダルグラフ学習の一般的かつ体系的なフレームワークを提案しています。彼らの手法は、それ自体との関係構造を持つ複数の多モーダルな近傍から情報を取得することを含みます。彼らは、複雑な関係をグラフとして表現し、モダリティの数とモダリティ間の複雑な関係を柔軟に変化させることができます。

彼らのモデルは、隣接エンコーディングを抽出し、グラフ構造と組み合わせ、パラメータ効率の良い微調整を行います。多対多のマッピングを完全に理解するために、チームはテキストと埋込みを使用したセルフアテンション、単に埋め込みを使用したセルフアテンション、および埋込みを使用したクロスアテンションなどの近傍エンコーディングモデルを研究しました。彼らは、ラプラシアン固有ベクトル位置エンコーディング(LPE)とグラフニューラルネットワークエンコーディング(GNN)を使用して順序位置エンコーディングを比較しました。

微調整は、通常、ターゲットタスクに特化したラベル付きデータが必要です。関連するデータセットを既に持っているか、合理的なコストで入手できる場合、微調整はゼロからモデルをトレーニングするよりも費用効果が高い場合があります。研究者は、自己注意とテキストおよび埋め込みを使用したSA-TEのためのプレフィックスチューニングとLoRA、埋め込みモデルとのクロスアテンションのためのフラミンゴスタイルの微調整を使用します。彼らは、SA-TE近傍エンコーディングでほぼ4倍少ないパラメータを使用するプレフィックスチューニングがコストを低下させることを見つけました。

彼らの研究成果は、将来のMMGL研究とその分野での探求のための基礎を築くための深い分析です。研究者は、将来の多モーダルグラフ学習の範囲は期待され、機械学習、データ収集の進歩、およびさまざまなアプリケーションでの複雑な多モーダルデータの取り扱いの必要性によって大幅に拡大すると述べています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

T5 テキストからテキストへのトランスフォーマー(パート2)

BERT [5] の提案により、自然言語処理(NLP)のための転移学習手法の普及がもたらされましたインターネット上での未ラベル化...

機械学習

「Google LLMは、ドキュメントを読むだけでツールをマスターできる」

急速な技術の進歩の時代において、人工知能(AI)は時折、人間のような驚異的な進歩を遂げています。Googleの研究者たちは画...

機械学習

「トランスフォーマーの簡素化:理解できる単語を使った最先端の自然言語処理(NLP)-パート2- 入力」

ドラゴンは卵から孵り、赤ちゃんはおなかから飛び出し、AIに生成されたテキストは入力から始まります私たちはみんなどこかか...

データサイエンス

BERTopicを使用したクラスごとのトピック

「私たちには何十万ものテキストがありますそれらをすべて読んで洞察を得るには数年かかるでしょう幸いなことに、このプロセ...

機械学習

「専門家から汎用アシスタントへ:ビジョンと言語のマルチモーダル基盤モデルの進化についての詳細な探究」

コンピュータビジョンコミュニティはさまざまな課題に直面しています。事前トレーニング時代には、多目的な視覚ツールを紹介...

AI研究

スタンフォードの研究者たちは、DSPyを紹介します:言語モデル(LM)と検索モデル(RM)を用いた高度なタスクの解決のための人工知能(AI)フレームワーク

言語モデルと検索モデルを使用することで、さまざまな複雑なタスクを簡単に解決することができます。言語モデル(GPT-3など)...