Google AIはPixelLLMを提案します:細かい粒度のローカリゼーションとビジョン・ランゲージのアラインメントが可能なビジョン・ランゲージモデル

『Google AIがPixelLLMを提案:ビジョン・ランゲージモデルで可能な細部のローカリゼーションとアラインメント』

大規模言語モデル(LLMs)は、自然言語処理(NLP)、自然言語生成(NLG)、コンピュータビジョンなど、人工知能(AI)のサブフィールドの力を活用しています。LLMsにより、画像について複雑な推論を行い、画像に関するクエリに応答し、自然言語で画像を説明することが可能になりました。しかし、LLMsが単語の位置特定や位置の参照などの位置情報タスクを実行できるかはまだ不確かです。

この課題を解決するため、Google ResearchとUC San Diegoの研究チームが、PixelLLMという賢いモデルを導入し、細かい位置情報と画像-言語の整合性を実現することが可能になりました。このアプローチは、特に赤ちゃんがジェスチャーや指さし、命名などで自然に自分の視覚環境を説明する方法に着想を得ています。チームは、LLMsが視覚入力から空間的理解と推論をどのように派生できるかを見つけることを目標としていると共有しています。

PixelLLMは、言語モデルの各単語出力をピクセルの位置に密接に対応させます。これには、単語特徴の上に小さなマルチレイヤーパーセプトロン(MLP)が追加され、各単語のピクセル位置に回帰できるようになっています。低ランクのファインチューニング(LoRA)が使用され、言語モデルの重みを更新または凍結することができます。モデルはテキストまたは場所のプロンプトも受け取ることができ、プロンプトに合わせた出力を提供できます。

モデルのアーキテクチャには、画像エンコーダ、プロンプトエンコーダ、およびプロンプト特徴抽出器が含まれています。大規模言語モデルは、プロンプトに基づいた画像特性とオプションのテキストプロンプトを入力とし、単語ごとの位置特定とキャプションという形で出力します。言語または位置の様々な組み合わせを入力または出力として受け取る能力により、アーキテクチャは幅広い視覚言語活動に適応できます。

チームは、密なオブジェクトキャプショニングや位置条件付きキャプショニング、位置の参照など、よく知られたビジョンタスクを使用してモデルを評価しました。89.8 [email protected]のRefCOCOを参照した位置情報、Visual Genome条件付きキャプショニングの19.9 CIDEr、密なオブジェクトキャプショニングの17.0 mAPなど、優れたパフォーマンス指標を持つPixelLLMは、さまざまな課題において最先端の結果を示しています。ピクセルごとの密な位置特定の定式化が重要であることは、RefCOCOでの収縮研究によって示されており、他の位置特定の定式化に比べて3.7ポイントの利益を上げています。したがって、PixelLLMは正確なビジョン-言語の整列と位置情報を達成することに成功しています。

チームは、主な貢献を以下のようにまとめています。

  1. 「PixelLLM」という新しいビジョン-言語モデルを紹介し、単語の位置特定と画像キャプションを生成する。
  1. モデルは、画像入力に加えてテキストまたはオプションの場所の手がかりをサポートします。
  1. 位置特定のトレーニングには、ローカル化されたナラティブデータセットが使用されました。
  1. セグメンテーション、位置条件付きキャプショニング、参照位置、密なキャプショニングなど、さまざまなビジョン-言語タスクに適応することができます。
  1. 位置条件付きキャプショニング、密なキャプショニング、参照位置とセグメンテーションで優れた成果を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「ChatGPTにおける適切なプロンプト設計の必須ガイド」

「Prompt Engineering」に没頭して、急速に成長しているChatGPTユーザーベースに与える影響に焦点を当てた詳細なガイドで、プ...

機械学習

「生成型AIアプリケーションにおける効果的なプロンプトエンジニアリング原則」

「この記事では、LangchainとOpenAI ChatGPT APIを使用した効果的なプロンプトエンジニアリング技術の概念と原則について説明...

機械学習

「仕事は続けられますが、同じ仕事ではありません」

「AIが私たちのコーディングスキルに迫っている一方で、人間の言語を完全に習得したわけではありませんそれが私たちの競争上...

人工知能

「信じられないほどの新しい中間補間機能(領域の変化)」

「この機能により、グラフィックデザインの経験がないがグラフィックを作成したいという人にとって、Midjourneyは100倍も価値...

人工知能

AIが開発者の生活を簡単にする10の方法

AIは、テストやバグ修正などの繰り返しのタスクを自動化し、開発者がより創造的で戦略的な作業に集中することができるように...

データサイエンス

ディープラーニングのマスタリング:分岐推定を使った非線形概算の芸術 パート1

過去の1年間で、私たちはディープラーニングの人気が爆発的に急増しているのを目撃してきましたGPT-4のような大規模な言語モ...