このAI論文では、マルチビューの冗長性を超えるための新しいマルチモーダル表現学習手法であるFACTORCLを提案しています

マルチビューの冗長性を超えるための新しいマルチモーダル表現学習手法「FACTORCL」を提案するAI論文

機械学習における主要なパラダイムの一つは、複数のモダリティからの表現学習です。未ラベル付けされたマルチモーダルデータに対するブロードな画像の事前トレーニングの後、タスク固有のラベルへの微調整が現在の共通学習戦略となっています。現在のマルチモーダル事前トレーニング技術は、主に多視点学習の先行研究に基づいており、多視点の冗長性という重要な前提によって成り立っています。つまり、モダリティ間で交換される情報は、その後のタスクに完全に関連しているほとんどの情報であるという特性です。これが真であると仮定すると、共有データをキャプチャするために対立的事前トレーニングを使用し、タスクに関連する共有情報を保持するために微調整する手法は、音声と転写テキスト、画像とキャプション、ビデオとオーディオ、指示およびアクションの学習に成功裏に適用されています。

しかしながら、彼らの研究では、対比的学習(CL)のより広範な実世界のマルチモーダルコンテキストでの使用に関する2つの制約を調査しています:

1. タスクに関連する情報の低い共有 多くのマルチモーダルタスクには、漫画の画像と比喩的または慣用的な字幕(つまり、文字通りではなく比喩的なビジュアルの説明)の間など、共有される情報が少ないものがあります。このような状況では、従来のマルチモーダルCLでは必要なタスクに関連する情報を取得するのが困難であり、教示された表現の一部しか学習しません。

2. タスクに関連する独自の情報:多くのモダリティが他のモダリティには存在しない固有の情報を提供する可能性があります。力センサーを使用したロボット工学や医療用センサーを使用した医療などがその例です。

標準のCLではタスクに関連する固有の詳細が無視され、その結果、下流のパフォーマンスが低下します。このような制約の下で、どのようにしてマルチモーダル学習目標を多視点の冗長性を超えて適切に作成することができるのでしょうか?カーネギーメロン大学、ペンシルベニア大学、スタンフォード大学の研究者たちは、情報理論の基礎から始め、FACTORIZED CONTRASTIVE LEARNING(FACTORCL)という手法を提案し、多視点の冗長性を超えたこれらのマルチモーダル表現を学習します。この手法は、条件付き相互文の規定を通じて共有情報と独自情報を形式的に定義します。

まず、共有と独自の表現を明示的に要因分解するというコンセプトです。適切かつ必要な情報コンテンツを持つ表現を作成するための2つ目のアプローチは、タスクに関連する情報を最大化するためにMIの下限を最大化し、タスクに関連しない情報を抽出するためにMIの上限を最小化することです。最終的に、明示的なラベリングなしで自己教示的シナリオにおいてタスクの関連性を確立するために、マルチモーダル拡張を使用します。彼らは、さまざまな合成データセットと画像と比喩的言語を含む幅広い実世界のマルチモーダルベンチマークを使用して、FACTORCLの効果を感情、感性、ユーモア、皮肉、および健康指標およびセンサー読み取りからの患者疾患および死亡予測などの人間の反応の予測に評価しました。彼らは6つのデータセットで新たな最先端のパフォーマンスを達成しました。

以下は彼らの主な技術的貢献を列挙しています:

1. 低共有または高固有情報のシナリオでは、典型的なマルチモーダルCLはタスクに関連する固有情報を収集できないことを示す、最近の対比的学習パフォーマンスの調査。

2. FACTORCLは、次の点において全く新しい対比的学習アルゴリズムです:

(A) 低共有あるいは高固有情報を取り扱うために対比的学習を改善するため、FACTORCLは、タスクに関連する情報を共有情報と独自情報に分解します。

(B) FACTORCLは、共有情報と独自情報を独立に最適化することで、タスクに関連する最適な表現を生成します。これにより、タスクに関連する情報を下限でキャプチャし、MIの上限を使用してタスクに関連しない情報を除外します。

(C) FACTORCLを用いてタスクに関連する情報を推定するためのマルチモーダル拡張を使用し、FACTORCLからの自己監督学習を可能にします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「25以上のChatGPTのプロンプトで、より多くのリードを生成し(そしてより多くの売り上げを生み出す)」

「競合他社がより多くのリードを得るためにAIツールを使用しているため、あなたは彼らに負けていますあなたも同じことをすべ...

AI研究

Salesforce AIは、既存の拡散モデルを与えられた場合に、テキストから画像への拡散生成を行う新しい編集アルゴリズム「EDICT」を開発しました

最近のテクノロジーと人工知能の分野における進歩により、多くのイノベーションが生まれています。超トレンディなChatGPTモデ...

機械学習

悪質なコンテンツ検出のためのLLM:利点と欠点

この投稿では、インターネット上の有害なコンテンツを特定するための2つの異なる方法を評価しますそれは、教師あり分類器のト...

データサイエンス

「AIはほとんどのパスワードを1分以内に解読できますAI攻撃からパスワードを保護する方法」

人工知能(AI)は、次の技術革新の波をもたらしています。AIの能力に魅了される一方で、その潜在的なリスクへの懸念も高まっ...

データサイエンス

このAI研究は、近くの電話によって記録されたキーストロークを聞くことで、95%の正確さでデータを盗むことができるディープラーニングモデルを紹介しています

ディープラーニングの進歩とマイクロフォンの普及に伴い、個人デバイスを通じたオンラインサービスの人気が高まる中、キーボ...

人工知能

「クロードへの5つのプロンプトエンジニアリングのヒント」

多くの人々がChatGPTの代わりにClaudeを使い始めています... ここではClaudeの最大の利点を引き出す方法をご紹介します