コロンビア大学とAppleの研究者が『フェレット』を紹介します画像の高度な理解と説明のための画期的な多モーダル言語モデルです

「コロンビア大学とAppleの研究者による、画像の高度な理解と説明のための画期的な多モーダル言語モデル『フェレット』の紹介」

モデルの空間的知識を促進する方法は、ビジョン言語学習の主要な研究課題です。このジレンマは、参照と基線という2つの必要な能力を必要とします。基準化では、モデルは提供された意味的な説明に応じて領域をローカライズする必要があります。一方、参照は、モデルが特定の提供された領域の意味を完全に理解することを求めます。本質的に、地理情報と意味を一致させることが、参照と基礎化の両方に必要な知識です。しかし、参照と道徳は通常、現在のテキストでは別々に教えられています。一方、人間は参照/基礎化能力を日常的な議論と推論にスムーズに組み合わせることができ、一つの活動から学び、共有知識を他の仕事に難なく一般化することができます。

この研究では、前述の格差を考慮して、3つの主要な問題を調査しています。 (i) 参照と基礎化を1つのフレームワークに組み合わせる方法と、お互いを補完する方法は何ですか? (ii) 点、ボックス、落書き、自由形状など、人々が物を指すためにしばしば使用する多くの領域をどのように描写しますか? (iii) 実用的なアプリケーションにおいて必要とされる参照と基礎化を、オープンボキャブラリー、指示に従う、頑健なものにするにはどうすればよいですか? コロンビア大学とApple AI/MLの研究者は、これらの3つの問題に対応するために、全く新しい参照-基礎化マルチモーダル大規模言語モデル(MLLM)であるFerretを提案します。彼らは、まず、Ferretの基盤としてMLLMを選択しました。その理由は、MLLMが強力なビジョン言語のグローバルな理解力を持っているからです。図1に示されているように、Ferretは最初に平文数値形式の領域の座標を符号化して、参照と基礎化を統一します。

図3: 提案されたFerretモデルのアーキテクチャの概要。左側には、提案されたハイブリッド領域表現と空間認識ビジュアルサンプラーが表示されています。全体のモデルアーキテクチャ(右側)。画像エンコーダは学習できない唯一のパラメータです。

ただし、ストローク、落書き、複雑なポリゴンなど、さまざまな地域の形式を単一の点または座標のボックスで表現することは実用的ではありません。これらの形式は、より正確で包括的な人間とモデルの相互作用に必要です。この問題に対処するために、彼らはまた、可変スパース性を考慮した任意の形式の領域の光学的な特性を取得するための空間認識ビジュアルサンプラーを提案しています。そして、入力の視覚的な領域は、離散的な座標と連続的な視覚的特徴からなるハイブリッド領域表現を用いてFerretで表現されます。上記の手法を用いることで、Ferretは自由形式テキストと参照された領域を組み合わせた入力を処理することができ、指定されたアイテムを自動的に地域化オブジェクトとテキストの座標を作成して出力します。

彼らの知る限りでは、Ferretはフリーフォームの領域を持つMLLMsからの入力を処理する最初のアプリケーションです。彼らはGRITというGround-and-Refer Instruction-Tuningデータセットを収集し、Ferretのオープンボキャブラリー、指示に従う、頑健さを作り出します。GRITには、領域、接続、オブジェクト、複雑な推論など、さまざまなレベルの空間的知識が含まれています。入力と出力の両方に位置とテキストを組み合わせたデータ、さらには位置内テキストアウト(参照)およびテキスト内位置アウト(基礎化)のデータも含まれています。注意深く作成されたテンプレートの助けを借りて、データセットのほとんどは、現在のビジョン(言語)タスク、例えばオブジェクト識別とフレーズ基礎化から指示に従うように変換されています。

指示に従う、オープンボキャブラリーの参照-基礎化一般主義を訓練するために、ChatGPT/GPT-4を使用して34,000の参照-基礎化指示調整チャットを収集しました。また、モデルの頑健性を高めるために、空間的認識に関するネガティブデータのマイニングも行っています。Ferretは、オープンボキャブラリーの空間認識とローカリゼーション能力を持っています。従来の参照と基礎化の活動と比較した場合、より優れたパフォーマンスを発揮します。さらに、参照-基礎化の能力は、例えば、人々が馴染みのない物事を指し、その機能について尋ねるときなど、日常的な人間の議論に組み込まれるべきだと考えています。この新しいスキルを評価するために、Ferret-Benchを提案しています。それは、参照記述、参照推論、会話中の基礎化という3つの新しいタイプのタスクをカバーしています。既に使用されている最高のMLLMと比較して、Ferretは平均で20.4%の性能向上を示すことができます。Ferretはまた、オブジェクトの幻覚を軽減する卓越した能力を持っています。

彼らは全体的に3つの異なる貢献をしています。 (i) MLLMでの微細なグラウンディングとリファレンスを可能にするFerretを提案しています。Ferretは、ユニークな空間感知ビジュアルサンプラーを備えたハイブリッドな領域表現を使用しています。 (ii) 彼らはモデルのトレーニングのための大規模な調整データセットであるGRITを作成しました。また、モデルの抵抗力を強化するために余分な空間的なネガティブな例も含まれています。リファリング/グラウンディング、意味、知識、推論を同時に評価するタスクを評価するために、彼らはFerret-Benchを作成しました (iii)。彼らのモデルは、さまざまな活動で他のモデルよりも優れた性能を発揮し、オブジェクトの妄想が少ないです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「GitLabがDuo Chatを導入:生産性向上のための対話型AIツール」

ソフトウェア開発では、開発者は複雑なコードやプロジェクトの問題の効率的な管理に取り組むことが多いです。ワークフローで...

コンピュータサイエンス

弁護士には、ChatGPTを使用したことについて、許しを求めることを検討するよう命じられました

裁判官は、スティーブン・A・シュワルツとピーター・ロドゥーカに、架空の内容を含む書類で名指しされた裁判官に対して罰金を...

AI研究

UC San Diegoの研究者DYffusion:空間的時間予測のためのダイナミクスに基づく拡散モデル

ダイナミックシステムの将来の振る舞いを予測することは、システムの進化を駆動する基礎的なダイナミクスを理解し、将来の状...

機械学習

MPT-7Bをご紹介します MosaicMLによってキュレーションされた1Tトークンのテキストとコードでトレーニングされた新しいオープンソースの大規模言語モデルです

MosaicMLは最近、予測分析と意思決定のアプローチを変革する画期的なツール、MPT-7Bを発表しました。この新しいツールは、最...

機械学習

Paellaを紹介します:安定した拡散よりもはるかに高速に高品質の画像を生成できる新しいAIモデル

過去2〜3年で、人工知能(AI)を使用してテキストから画像を生成する方法に関する研究の質と量が驚異的に増加しています。こ...

機械学習

これをデジタルパペットにしてください:GenMMは、単一の例を使用して動きを合成できるAIモデルです

コンピュータ生成のアニメーションは、毎日より現実的になっています。この進歩は、ビデオゲームで最もよく見ることができま...