このAI論文では、マルチビューの冗長性を超えるための新しいマルチモーダル表現学習手法であるFACTORCLを提案しています

マルチビューの冗長性を超えるための新しいマルチモーダル表現学習手法「FACTORCL」を提案するAI論文

機械学習における主要なパラダイムの一つは、複数のモダリティからの表現学習です。未ラベル付けされたマルチモーダルデータに対するブロードな画像の事前トレーニングの後、タスク固有のラベルへの微調整が現在の共通学習戦略となっています。現在のマルチモーダル事前トレーニング技術は、主に多視点学習の先行研究に基づいており、多視点の冗長性という重要な前提によって成り立っています。つまり、モダリティ間で交換される情報は、その後のタスクに完全に関連しているほとんどの情報であるという特性です。これが真であると仮定すると、共有データをキャプチャするために対立的事前トレーニングを使用し、タスクに関連する共有情報を保持するために微調整する手法は、音声と転写テキスト、画像とキャプション、ビデオとオーディオ、指示およびアクションの学習に成功裏に適用されています。

しかしながら、彼らの研究では、対比的学習(CL)のより広範な実世界のマルチモーダルコンテキストでの使用に関する2つの制約を調査しています:

1. タスクに関連する情報の低い共有 多くのマルチモーダルタスクには、漫画の画像と比喩的または慣用的な字幕(つまり、文字通りではなく比喩的なビジュアルの説明)の間など、共有される情報が少ないものがあります。このような状況では、従来のマルチモーダルCLでは必要なタスクに関連する情報を取得するのが困難であり、教示された表現の一部しか学習しません。

2. タスクに関連する独自の情報:多くのモダリティが他のモダリティには存在しない固有の情報を提供する可能性があります。力センサーを使用したロボット工学や医療用センサーを使用した医療などがその例です。

標準のCLではタスクに関連する固有の詳細が無視され、その結果、下流のパフォーマンスが低下します。このような制約の下で、どのようにしてマルチモーダル学習目標を多視点の冗長性を超えて適切に作成することができるのでしょうか?カーネギーメロン大学、ペンシルベニア大学、スタンフォード大学の研究者たちは、情報理論の基礎から始め、FACTORIZED CONTRASTIVE LEARNING(FACTORCL)という手法を提案し、多視点の冗長性を超えたこれらのマルチモーダル表現を学習します。この手法は、条件付き相互文の規定を通じて共有情報と独自情報を形式的に定義します。

まず、共有と独自の表現を明示的に要因分解するというコンセプトです。適切かつ必要な情報コンテンツを持つ表現を作成するための2つ目のアプローチは、タスクに関連する情報を最大化するためにMIの下限を最大化し、タスクに関連しない情報を抽出するためにMIの上限を最小化することです。最終的に、明示的なラベリングなしで自己教示的シナリオにおいてタスクの関連性を確立するために、マルチモーダル拡張を使用します。彼らは、さまざまな合成データセットと画像と比喩的言語を含む幅広い実世界のマルチモーダルベンチマークを使用して、FACTORCLの効果を感情、感性、ユーモア、皮肉、および健康指標およびセンサー読み取りからの患者疾患および死亡予測などの人間の反応の予測に評価しました。彼らは6つのデータセットで新たな最先端のパフォーマンスを達成しました。

以下は彼らの主な技術的貢献を列挙しています:

1. 低共有または高固有情報のシナリオでは、典型的なマルチモーダルCLはタスクに関連する固有情報を収集できないことを示す、最近の対比的学習パフォーマンスの調査。

2. FACTORCLは、次の点において全く新しい対比的学習アルゴリズムです:

(A) 低共有あるいは高固有情報を取り扱うために対比的学習を改善するため、FACTORCLは、タスクに関連する情報を共有情報と独自情報に分解します。

(B) FACTORCLは、共有情報と独自情報を独立に最適化することで、タスクに関連する最適な表現を生成します。これにより、タスクに関連する情報を下限でキャプチャし、MIの上限を使用してタスクに関連しない情報を除外します。

(C) FACTORCLを用いてタスクに関連する情報を推定するためのマルチモーダル拡張を使用し、FACTORCLからの自己監督学習を可能にします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

1時間以内に初めてのディープラーニングアプリを作成しましょう

私はもう10年近くデータ分析をしています時折、データから洞察を得るために機械学習の技術を使用しており、クラシックな機械...

人工知能

5分で作成するLow-Code GPT AIアプリを作成する

AIとデータベースの相互作用にAIのツール、AINIROとOpenAIのGPTを組み合わせることで、5分で完全なデータベースをCRUDアプリ...

AIニュース

OpenAI GPT(ジェネラル プロダクト トランスフォーマー):自分自身で作るChatGPTを活用した対話型AI

私たちの詳細な記事でカスタムGPTについて学びましょうその中では、あなたのニーズに合わせたAIチャットボットを簡単に作成す...

機械学習

「GCPの生成AI機能を活用して変革するBFSIサービス」

「ジェネラティブAI(Gen AI)サービスがクラウドプラットフォーム上で収束することで、BFSIセクターなどの産業革新に前例の...

機械学習

「SDXL 1.0の登場」

機械学習の急速に進化する世界では、新しいモデルやテクノロジーがほぼ毎日私たちのフィードに押し寄せるため、最新情報を把...

人工知能

BScの後に何をすべきか?トップ10のキャリアオプションを探索する

イントロダクション 科学はしばしば無限の可能性の源であり、さまざまな分野でのさらなる研究や雇用の広大な機会を提供します...