データ、アーキテクチャ、または損失:マルチモーダルトランスフォーマーの成功に最も貢献する要素は何ですか?

マルチモーダルトランスフォーマーの成功に最も貢献する要素は何ですか?

言語を視覚に結びつける能力は、現実世界のAIシステムの基本的な側面です。これは、様々なタスク(例:ビジュアルクエスチョンアンサリング)やアプリケーション(例:視覚障害者のための説明生成)で役立ちます。マルチモーダルモデル(画像言語ペアで事前学習されたモデル)は、この結びつけの問題に取り組むことを目指しています。最近のモデルファミリーであるマルチモーダルトランスフォーマー(例:Lu et al.、2019; Chen et al.、2020; Tan and Bansal、2019; Li et al.、2020)は、マルチモーダルのベンチマークで最先端のパフォーマンスを達成し、画像言語ペア間のアラインメントをキャプチャするために、デュアルエンコーダなどの従来のアプローチよりもジョイントエンコーダトランスフォーマーアーキテクチャがより適していることを示唆しています。

特に、モダリティ間のクロストークがないデュアルエンコーダアーキテクチャと比較して、マルチモーダルトランスフォーマー(ジョイントエンコーダ)はサンプル効率が高いです。以下のプロットでは、ゼロショット画像検索でテストした場合、既存のマルチモーダルトランスフォーマー(UNITER)が、100倍のデータでトレーニングされた大規模なデュアルエンコーダ(CLIP)と同様のパフォーマンスを発揮することがわかります。

BOW-DE: Miech & Alayrac et al. Arxiv 2021, MMT: Hendricks et al. TACL 2021, UNITER: Chen et al. ECCV 2020, CLIP: Radford et al. Arxiv 2021, ALIGN: Jia et al. Arxiv 2021

この研究では、マルチモーダルトランスフォーマーの成功において、アテンション、ロス、事前学習データのどの側面が重要かを調査しました。言語と画像のトランスフォーマーがお互いにアテンションを向けるマルチモーダルアテンションは、これらのモデルの成功に重要です。他のタイプのアテンションを持つモデル(より深さやパラメータがあっても)は、マルチモーダルアテンションを持つ浅いモデルや小さなモデルと同等の結果を達成することができません。また、マルチモーダルトランスフォーマーに元々提案された画像(マスク領域モデリング)のロスなしでも、同等の結果を達成することができます。これは、現在のモデルが画像モダリティの有用な信号にアクセスしていないことを示唆しています。

また、マルチモーダルデータセットの異なる特性(サイズ、言語が対応する画像をどの程度説明しているか(ノイズレベル))も研究しました。データセットのサイズは常にマルチモーダルトランスフォーマーのパフォーマンスを予測するわけではありません。ノイズレベルと評価タスクとの言語の類似性の両方が重要な要因です。これらは、現在のウェブからノイズの多いデータセットを収集するという傾向にもかかわらず、よりノイズの少ない画像テキストデータセットの作成が重要であることを示唆しています。

全体的に、私たちの分析は、マルチモーダルトランスフォーマーがデュアルエンコーダアーキテクチャよりも強力であることを(同じ量の事前学習データを使用して)示しています。これは、マルチモーダルアテンションを介したクロストークによるものです。ただし、画像モダリティのためのより良いロスやデータセットのノイズに対する頑健性など、マルチモーダルモデルの設計にはまだ多くの課題があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more