Contextual AIは、VQAv2においてFlamingoを9%上回る(56->65%)ビジョン補完言語モデルのためのAIフレームワークLENSを導入しました

Contextual AIは、VQAv2のAIフレームワークLENSを導入し、Flamingoを9%上回るビジョン補完言語モデル(56%から65%)を実現しました

大規模言語モデル(LLM)は、最近の数年間で自然言語理解を変革し、ゼロショットおよびフューショットの環境での特に意味理解、クエリ解決、およびテキスト生成の能力を示しています。図1(a)に示すように、ビジョンに関わるタスクでLLMを使用するためのいくつかの手法が提案されています。光学エンコーダを使用して各画像を連続埋め込みの系列として表現し、LLMが理解できるようにする方法もあります。別の手法では、コントラスト学習でトレーニングされた固定ビジョンエンコーダを使用し、凍結されたLLMに追加の層を追加してゼロから学習します。

別の手法では、凍結された視覚エンコーダ(コントラスト学習で事前トレーニングされたもの)と凍結されたLLMを整列させるために、軽量トランスフォーマをトレーニングすることを推奨しています。上記の研究では進歩していますが、追加の事前トレーニング段階の計算コストを正当化するのは依然として困難です。また、既存のLLMと視覚および言語のモダリティを同期させるために、テキスト、写真、動画などの大規模なデータベースが必要です。Flamingoでは、視覚特徴を追加するために、事前トレーニングされたLLMに新しいクロスアテンション層を追加します。

図1:視覚と言語のモダリティを調整するための手法の比較 マルチモーダルプリトレーニングには2つのオプションがあります:(a)対応またはWebデータセットを利用する方法;および(b)LENSは、追加のマルチモーダルデータセットの要件がない、市販のLLMと組み合わせて使用できるプリトレーニングフリーの手法です。LENSと異なり、従来の手法では視覚タスクを達成するために大規模なマルチモーダルデータセットでの共同アライメントプリトレーニングが必要です。

マルチモーダルプリトレーニング段階では、驚くべき20億の画像テキストペアと4300万のウェブサイトが必要であり、事前にトレーニングされた画像エンコーダと凍結されたLLMを使用しても最大15日かかることがあります。代わりに、さまざまな「ビジョンモジュール」を使用して、彼らはビジュアル入力から情報を抽出し、詳細なテキスト表現(タグ、属性、アクション、関係など)を生成し、それをLLMに直接フィードして追加のマルチモーダルプリトレーニングの必要性を回避することができます(図1(b)参照)。Contextual AIとスタンフォード大学の研究者は、LENS(Large Language Models ENnhanced to See)というモジュラーな戦略を紹介し、LLMを「推論モジュール」として使用し、個別の「ビジョンモジュール」で機能する方法を提案しています。

彼らはまず、コントラストモデルや画像キャプションモデルなどの事前トレーニング済みビジョンモジュールを使用してLENS手法で豊富なテキスト情報を抽出します。そのテキストは次にLLMに送られ、オブジェクト認識、ビジョン、言語(V&L)を含むタスクを実行することができます。LENSは、追加のマルチモーダルプリトレーニングステージやデータの必要性をなくすことで、モダリティ間のギャップを無償で埋めることができます。また、この統合により、コンピュータビジョンと自然言語処理の最新の進歩を即座に活用することができ、両分野の利点を最大限に引き出すことができます。

彼らは以下の貢献を提供しています:

• LENSは、言語モデルのfew-shot、インコンテキスト学習能力を使用して、コンピュータビジョンの課題を処理するモジュラーな方法を提供します。

• LENSにより、追加のトレーニングやデータなしで、どの市販のLLMでも視覚情報を認識することができます。

• 凍結されたLLMを使用してオブジェクト認識およびビジュアル推論タスクを処理するために、ビジョンと言語のアライメントやマルチモーダルデータの追加は必要ありません。実験結果は、彼らの手法が、KosmosやFlamingoなどのエンドツーエンド共同プリトレーニングモデルと競合または優れたゼロショットパフォーマンスを達成することを示しています。彼らの論文の一部の実装はGitHubで利用できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

チャットボットと個人情報の共有の危険性-注意が必要です

AI革命の始まり以来、ChatGPTやBardのようなチャットボットは、私たちにとって欠かせないツールとなり、もはや切り離せない存...

データサイエンス

「AIデータ統合とコンテンツベースのマッピングによる未来のナビゲーション」

この記事では、AIデータ統合とコンテンツベースのマッピングが企業がより良いデータ駆動型の未来を築くのにどのように役立つ...

データサイエンス

「NVIDIAがインドの巨大企業と提携し、世界最大の人口を持つ国でAIを進める」

世界最大の民主主義国は、AIを広範囲に採用し、自身と世界を変革する準備が整っています。 インドの最大の複合企業であるReli...

AIテクノロジー

6つのGenAIポッドキャスト、聴くべきです

はじめに 急速に進化する 人工知能(AI)の世界において、生成AI(GenAI)の領域は魅力的でダイナミックな分野として注目され...

機械学習

深層学習フレームワークの比較

「開発者に最適なトップのディープラーニングフレームワークを見つけてください機能、パフォーマンス、使いやすさを比較して...

AIニュース

「ChatGPTは人間の創造性テストでトップ1%のスコアを獲得」

人工知能(AI)は、モンタナ大学とそのパートナーによる研究によれば、新たな高みに達しました。この研究では、チャットGPTが...