「より良いデータセットが新しいSOTAモデルを生み出す方法!」

「最新のSOTAモデルを作り出すためのより良いデータセットの作成方法!」

🚀 「MMICL:マルチモーダルインコンテキスト学習によるビジョン-言語モデルの強化」 論文解説

時には、複雑なマルチモーダルAIデータセットの整理を行うだけで、新たなSOTAモデルを達成することができます。本稿では、中国とワシントン大学の研究者による新しいMMICL論文に注目します。

この論文では、画像キャプションや視覚的質問応答などの単純な画像からテキストへのタスクに焦点を当てるのではなく、画像とテキストが交差するより複雑で現実的なマルチモーダルシナリオで非常に強力なパフォーマンスを発揮するモデルの設計を目指しています。

MMICLによって生成されたビジョン-言語対話の例。出典:[1]

例えば、(a)では、ユーザーがAIに猫の画像を説明するように尋ね、同じ画像の一部を使用して元の画像の要素を直接参照しています。また、(b)では、2つの異なる画像を論理的に結びつけるようAIに尋ねています。これは単に1つの画像を見て質問に答えるのとは非常に異なります。さらに一歩進めて、(e)の例では、モデルがビデオのフレームを見る際に画像間の時間的な関係を理解することができます。そして、(f)を見ると、モデルは複雑なテキストから画像への参照も非常にうまく把握しています。つまり、どの画像が画像0、1、2、および3であるかを知っています。

アーキテクチャとトレーニング

さて、モデルのアーキテクチャはどのようになっていますか?まあ、少なくとも私の意見では、新しいデータセットが主な貢献です。そのデータセットについては後ほど説明します。モデルのアーキテクチャ自体は実際には新しいものではありません。BLIP-2 [2]と同じです。

MMICLアーキテクチャのイラスト。出典:[1]

凍結された画像エンコーダ(ViTのような)があり、画像特徴を生成します。それらの画像特徴は、Q-Formerと完全に接続された層を介して画像特徴をビジュアルプロンプトに変換します。つまり、それらを整列し、投影させるために使用されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more