このAI論文では、マルチビューの冗長性を超えるための新しいマルチモーダル表現学習手法であるFACTORCLを提案しています

マルチビューの冗長性を超えるための新しいマルチモーダル表現学習手法「FACTORCL」を提案するAI論文

機械学習における主要なパラダイムの一つは、複数のモダリティからの表現学習です。未ラベル付けされたマルチモーダルデータに対するブロードな画像の事前トレーニングの後、タスク固有のラベルへの微調整が現在の共通学習戦略となっています。現在のマルチモーダル事前トレーニング技術は、主に多視点学習の先行研究に基づいており、多視点の冗長性という重要な前提によって成り立っています。つまり、モダリティ間で交換される情報は、その後のタスクに完全に関連しているほとんどの情報であるという特性です。これが真であると仮定すると、共有データをキャプチャするために対立的事前トレーニングを使用し、タスクに関連する共有情報を保持するために微調整する手法は、音声と転写テキスト、画像とキャプション、ビデオとオーディオ、指示およびアクションの学習に成功裏に適用されています。

しかしながら、彼らの研究では、対比的学習(CL)のより広範な実世界のマルチモーダルコンテキストでの使用に関する2つの制約を調査しています:

1. タスクに関連する情報の低い共有 多くのマルチモーダルタスクには、漫画の画像と比喩的または慣用的な字幕(つまり、文字通りではなく比喩的なビジュアルの説明)の間など、共有される情報が少ないものがあります。このような状況では、従来のマルチモーダルCLでは必要なタスクに関連する情報を取得するのが困難であり、教示された表現の一部しか学習しません。

2. タスクに関連する独自の情報:多くのモダリティが他のモダリティには存在しない固有の情報を提供する可能性があります。力センサーを使用したロボット工学や医療用センサーを使用した医療などがその例です。

標準のCLではタスクに関連する固有の詳細が無視され、その結果、下流のパフォーマンスが低下します。このような制約の下で、どのようにしてマルチモーダル学習目標を多視点の冗長性を超えて適切に作成することができるのでしょうか?カーネギーメロン大学、ペンシルベニア大学、スタンフォード大学の研究者たちは、情報理論の基礎から始め、FACTORIZED CONTRASTIVE LEARNING(FACTORCL)という手法を提案し、多視点の冗長性を超えたこれらのマルチモーダル表現を学習します。この手法は、条件付き相互文の規定を通じて共有情報と独自情報を形式的に定義します。

まず、共有と独自の表現を明示的に要因分解するというコンセプトです。適切かつ必要な情報コンテンツを持つ表現を作成するための2つ目のアプローチは、タスクに関連する情報を最大化するためにMIの下限を最大化し、タスクに関連しない情報を抽出するためにMIの上限を最小化することです。最終的に、明示的なラベリングなしで自己教示的シナリオにおいてタスクの関連性を確立するために、マルチモーダル拡張を使用します。彼らは、さまざまな合成データセットと画像と比喩的言語を含む幅広い実世界のマルチモーダルベンチマークを使用して、FACTORCLの効果を感情、感性、ユーモア、皮肉、および健康指標およびセンサー読み取りからの患者疾患および死亡予測などの人間の反応の予測に評価しました。彼らは6つのデータセットで新たな最先端のパフォーマンスを達成しました。

以下は彼らの主な技術的貢献を列挙しています:

1. 低共有または高固有情報のシナリオでは、典型的なマルチモーダルCLはタスクに関連する固有情報を収集できないことを示す、最近の対比的学習パフォーマンスの調査。

2. FACTORCLは、次の点において全く新しい対比的学習アルゴリズムです:

(A) 低共有あるいは高固有情報を取り扱うために対比的学習を改善するため、FACTORCLは、タスクに関連する情報を共有情報と独自情報に分解します。

(B) FACTORCLは、共有情報と独自情報を独立に最適化することで、タスクに関連する最適な表現を生成します。これにより、タスクに関連する情報を下限でキャプチャし、MIの上限を使用してタスクに関連しない情報を除外します。

(C) FACTORCLを用いてタスクに関連する情報を推定するためのマルチモーダル拡張を使用し、FACTORCLからの自己監督学習を可能にします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ハスデックスとステーブルディフュージョン:2つのAI画像生成モデルを比較

「HasdxとStable Diffusionは、さまざまなユースケース、コスト、機能などを考慮して、最高のテキストから画像への変換モデル...

データサイエンス

学習トランスフォーマーコード第2部 - GPTを間近で観察

私のプロジェクトの第2部へようこそここでは、TinyStoriesデータセットとnanoGPTを使用して、トランスフォーマーとGPTベース...

AI研究

「Microsoftの研究者がPIT(Permutation Invariant Transformation)を提案:動的まばらさのためのディープラーニングコンパイラ」

“`html 最近、深層学習は動的スパース性に最適化されたモデルの研究によって注目されています。このシナリオでは、スパ...

機械学習

マイクロソフトAIがLLMLinguaを発表:大型言語モデル(LLM)の高速推論のためのユニークなクイック圧縮テクニックでプロンプトを圧縮

大規模言語モデル(LLM)は、その高い一般化能力と推論能力により、人工知能(AI)コミュニティを大きく押し上げています。こ...

機械学習

バイオメディカルインサイトのための生成AI

OpenBIOMLとBIO GPTを利用したGenerative AIを探求し、Large Language Models (LLMs)を使用して疾患の理解と治療に新たなアプ...

機械学習

「DeepOntoに会ってください 深層学習を用いたオントロジーエンジニアリングのためのPythonパッケージ」

ディープラーニングの方法論の進歩は、人工知能コミュニティに大きな影響を与えています。優れたイノベーションと開発により...