コロンビア大学とAppleの研究者が『フェレット』を紹介します画像の高度な理解と説明のための画期的な多モーダル言語モデルです

「コロンビア大学とAppleの研究者による、画像の高度な理解と説明のための画期的な多モーダル言語モデル『フェレット』の紹介」

モデルの空間的知識を促進する方法は、ビジョン言語学習の主要な研究課題です。このジレンマは、参照と基線という2つの必要な能力を必要とします。基準化では、モデルは提供された意味的な説明に応じて領域をローカライズする必要があります。一方、参照は、モデルが特定の提供された領域の意味を完全に理解することを求めます。本質的に、地理情報と意味を一致させることが、参照と基礎化の両方に必要な知識です。しかし、参照と道徳は通常、現在のテキストでは別々に教えられています。一方、人間は参照/基礎化能力を日常的な議論と推論にスムーズに組み合わせることができ、一つの活動から学び、共有知識を他の仕事に難なく一般化することができます。

この研究では、前述の格差を考慮して、3つの主要な問題を調査しています。 (i) 参照と基礎化を1つのフレームワークに組み合わせる方法と、お互いを補完する方法は何ですか？ (ii) 点、ボックス、落書き、自由形状など、人々が物を指すためにしばしば使用する多くの領域をどのように描写しますか？ (iii) 実用的なアプリケーションにおいて必要とされる参照と基礎化を、オープンボキャブラリー、指示に従う、頑健なものにするにはどうすればよいですか？コロンビア大学とApple AI/MLの研究者は、これらの3つの問題に対応するために、全く新しい参照-基礎化マルチモーダル大規模言語モデル（MLLM）であるFerretを提案します。彼らは、まず、Ferretの基盤としてMLLMを選択しました。その理由は、MLLMが強力なビジョン言語のグローバルな理解力を持っているからです。図1に示されているように、Ferretは最初に平文数値形式の領域の座標を符号化して、参照と基礎化を統一します。

図3: 提案されたFerretモデルのアーキテクチャの概要。左側には、提案されたハイブリッド領域表現と空間認識ビジュアルサンプラーが表示されています。全体のモデルアーキテクチャ（右側）。画像エンコーダは学習できない唯一のパラメータです。

ただし、ストローク、落書き、複雑なポリゴンなど、さまざまな地域の形式を単一の点または座標のボックスで表現することは実用的ではありません。これらの形式は、より正確で包括的な人間とモデルの相互作用に必要です。この問題に対処するために、彼らはまた、可変スパース性を考慮した任意の形式の領域の光学的な特性を取得するための空間認識ビジュアルサンプラーを提案しています。そして、入力の視覚的な領域は、離散的な座標と連続的な視覚的特徴からなるハイブリッド領域表現を用いてFerretで表現されます。上記の手法を用いることで、Ferretは自由形式テキストと参照された領域を組み合わせた入力を処理することができ、指定されたアイテムを自動的に地域化オブジェクトとテキストの座標を作成して出力します。

彼らの知る限りでは、Ferretはフリーフォームの領域を持つMLLMsからの入力を処理する最初のアプリケーションです。彼らはGRITというGround-and-Refer Instruction-Tuningデータセットを収集し、Ferretのオープンボキャブラリー、指示に従う、頑健さを作り出します。GRITには、領域、接続、オブジェクト、複雑な推論など、さまざまなレベルの空間的知識が含まれています。入力と出力の両方に位置とテキストを組み合わせたデータ、さらには位置内テキストアウト（参照）およびテキスト内位置アウト（基礎化）のデータも含まれています。注意深く作成されたテンプレートの助けを借りて、データセットのほとんどは、現在のビジョン（言語）タスク、例えばオブジェクト識別とフレーズ基礎化から指示に従うように変換されています。

指示に従う、オープンボキャブラリーの参照-基礎化一般主義を訓練するために、ChatGPT/GPT-4を使用して34,000の参照-基礎化指示調整チャットを収集しました。また、モデルの頑健性を高めるために、空間的認識に関するネガティブデータのマイニングも行っています。Ferretは、オープンボキャブラリーの空間認識とローカリゼーション能力を持っています。従来の参照と基礎化の活動と比較した場合、より優れたパフォーマンスを発揮します。さらに、参照-基礎化の能力は、例えば、人々が馴染みのない物事を指し、その機能について尋ねるときなど、日常的な人間の議論に組み込まれるべきだと考えています。この新しいスキルを評価するために、Ferret-Benchを提案しています。それは、参照記述、参照推論、会話中の基礎化という3つの新しいタイプのタスクをカバーしています。既に使用されている最高のMLLMと比較して、Ferretは平均で20.4%の性能向上を示すことができます。Ferretはまた、オブジェクトの幻覚を軽減する卓越した能力を持っています。

彼らは全体的に3つの異なる貢献をしています。 (i) MLLMでの微細なグラウンディングとリファレンスを可能にするFerretを提案しています。Ferretは、ユニークな空間感知ビジュアルサンプラーを備えたハイブリッドな領域表現を使用しています。 (ii) 彼らはモデルのトレーニングのための大規模な調整データセットであるGRITを作成しました。また、モデルの抵抗力を強化するために余分な空間的なネガティブな例も含まれています。リファリング/グラウンディング、意味、知識、推論を同時に評価するタスクを評価するために、彼らはFerret-Benchを作成しました (iii)。彼らのモデルは、さまざまな活動で他のモデルよりも優れた性能を発揮し、オブジェクトの妄想が少ないです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

コロンビア大学とAppleの研究者が『フェレット』を紹介します画像の高度な理解と説明のための画期的な多モーダル言語モデルです

Was this article helpful?

GoogleのAIにおける戦略的拡張：Anthropicへの20億ドルの賭け

「分析的に成熟した組織（AMO）の構築」

AI研究

「クラスの不均衡とオーバーサンプリング：形式的な紹介」

「データ管理におけるデータレイクの実装」

「Prompt Diffusionを紹介する：拡散ベースの生成モデルにおけるコンテキスト内学習を可能にするAIフレームワーク」

ウィンブルドンがAIによる実況を導入

横浜の大学の研究者らが提案した「VirSen1.0：センサーに基づく人間のジェスチャー認識システムの開発を効率化するための仮想環境」

「今日、何を見たと思う？このAIモデルは、あなたの脳の信号を解読して、あなたが見たものを再構築するんだよ」