Google AIはPixelLLMを提案します:細かい粒度のローカリゼーションとビジョン・ランゲージのアラインメントが可能なビジョン・ランゲージモデル

『Google AIがPixelLLMを提案:ビジョン・ランゲージモデルで可能な細部のローカリゼーションとアラインメント』

大規模言語モデル(LLMs)は、自然言語処理(NLP)、自然言語生成(NLG)、コンピュータビジョンなど、人工知能(AI)のサブフィールドの力を活用しています。LLMsにより、画像について複雑な推論を行い、画像に関するクエリに応答し、自然言語で画像を説明することが可能になりました。しかし、LLMsが単語の位置特定や位置の参照などの位置情報タスクを実行できるかはまだ不確かです。

この課題を解決するため、Google ResearchとUC San Diegoの研究チームが、PixelLLMという賢いモデルを導入し、細かい位置情報と画像-言語の整合性を実現することが可能になりました。このアプローチは、特に赤ちゃんがジェスチャーや指さし、命名などで自然に自分の視覚環境を説明する方法に着想を得ています。チームは、LLMsが視覚入力から空間的理解と推論をどのように派生できるかを見つけることを目標としていると共有しています。

PixelLLMは、言語モデルの各単語出力をピクセルの位置に密接に対応させます。これには、単語特徴の上に小さなマルチレイヤーパーセプトロン(MLP)が追加され、各単語のピクセル位置に回帰できるようになっています。低ランクのファインチューニング(LoRA)が使用され、言語モデルの重みを更新または凍結することができます。モデルはテキストまたは場所のプロンプトも受け取ることができ、プロンプトに合わせた出力を提供できます。

モデルのアーキテクチャには、画像エンコーダ、プロンプトエンコーダ、およびプロンプト特徴抽出器が含まれています。大規模言語モデルは、プロンプトに基づいた画像特性とオプションのテキストプロンプトを入力とし、単語ごとの位置特定とキャプションという形で出力します。言語または位置の様々な組み合わせを入力または出力として受け取る能力により、アーキテクチャは幅広い視覚言語活動に適応できます。

チームは、密なオブジェクトキャプショニングや位置条件付きキャプショニング、位置の参照など、よく知られたビジョンタスクを使用してモデルを評価しました。89.8 [email protected]のRefCOCOを参照した位置情報、Visual Genome条件付きキャプショニングの19.9 CIDEr、密なオブジェクトキャプショニングの17.0 mAPなど、優れたパフォーマンス指標を持つPixelLLMは、さまざまな課題において最先端の結果を示しています。ピクセルごとの密な位置特定の定式化が重要であることは、RefCOCOでの収縮研究によって示されており、他の位置特定の定式化に比べて3.7ポイントの利益を上げています。したがって、PixelLLMは正確なビジョン-言語の整列と位置情報を達成することに成功しています。

チームは、主な貢献を以下のようにまとめています。

  1. 「PixelLLM」という新しいビジョン-言語モデルを紹介し、単語の位置特定と画像キャプションを生成する。
  1. モデルは、画像入力に加えてテキストまたはオプションの場所の手がかりをサポートします。
  1. 位置特定のトレーニングには、ローカル化されたナラティブデータセットが使用されました。
  1. セグメンテーション、位置条件付きキャプショニング、参照位置、密なキャプショニングなど、さまざまなビジョン-言語タスクに適応することができます。
  1. 位置条件付きキャプショニング、密なキャプショニング、参照位置とセグメンテーションで優れた成果を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

Windows 12はAIの魔法機能を搭載:テクノロジーの未来への一端

Microsoft(マイクロソフト)は、次世代のWindows OSの大規模なアップデート「ハドソンバレー」と呼ばれるものを熱心に開発し...

人工知能

「世界中のさらに多くの人々に生成型AIを検索にもたらす」

「我々は、より多くの人々にSearch(SGE)での生成的AI機能を提供し、Search Labsをインドと日本で利用可能にしています」

人工知能

「AIがまだすぐには置き換えられない8つの仕事」

皆がAIが代替する仕事について話していますが、私たちはコインの裏側、つまりAIがまもなく置き換えないであろう仕事に目を向...

機械学習

魚の養殖スタートアップ、AIを投入して水産養殖をより効率的かつ持続可能にする

海洋生物学の学生だったJosef Melchnerは、イルカ、クジラ、魚を探すために毎日海をクルーズすることを常に夢見ていましたが...

人工知能

AIを使用して画像をビデオに変換する(Runway 2 チュートリアル)

RunwayMLは、ユーザーが静止画像を数秒でビデオに変換することができるAIツールです

機械学習

「GPT-4V(ビジョン)のコンセプトを理解する:新しい人工知能のトレンド」

OpenAIはAIの最新の進歩において、GPTやDALLEといった非常に優れたモデルを有しています。GPT-3のリリースは、テキストの要約...