「SegGPT」にお会いください:コンテキスト推論を通じて画像または動画の任意のセグメンテーションタスクを実行する汎用モデル

「SegGPT」は、コンテキスト推論を通じて画像または動画のセグメンテーションタスクを実行する汎用モデルです

コンピュータビジョンでは、前景、カテゴリ、オブジェクトインスタンスなどの重要な概念をピクセルレベルで特定し、再構成することを目指しており、セグメンテーションは最も基本的な課題の1つです。前景セグメンテーション、インタラクティブセグメンテーション、意味的セグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションなどのさまざまなセグメンテーションタスクについて、近年、かなりの進展がありました。ただし、これらの専門的なセグメンテーションモデルは、特定のタスク、分類、粒度、データ形式などに制約があります。新しい環境に適応する際に、例えば新しい概念をセグメンテーションしたり、写真ではなくビデオ内のオブジェクトをセグメンテーションする場合、新しいモデルをトレーニングする必要があります。

この研究では、無限のセグメンテーションタスクに対応できる単一のモデルをトレーニングすることを目標としています。これには時間のかかる注釈作業が必要であり、多くのセグメンテーションジョブに対して持続可能性が求められます。主な難点は2つの領域にあります:(1)部分、意味的、インスタンス、パノプティック、人物、医療画像、航空画像など、非常に異なるデータタイプをトレーニングに組み込むこと。(2)従来のマルチタスク学習とは異なる一般化可能なトレーニングスキームを作成することであり、タスクの定義が柔軟で、自身の範囲外のタスクを処理できるものです。これらの問題を克服するために、北京アカデミー、浙江大学、北京大学の研究者は、セグモデルを紹介し、文脈内で何でもセグメンテーションするための一般化パラダイムを提案しています。

彼らは、多くのセグメンテーションタスクを一般化した文脈内学習フレームワークに統合し、セグメンテーションを視覚知覚の一般的な形式と見なしています。このフレームワークは、それらを同じ画像形式に変換することで、さまざまなセグメンテーションデータタイプを処理できます。各データサンプルに対してランダムな色マッピングを使用することで、SegGPTトレーニング問題は文脈内の着色問題として表現されます。クラス、オブジェクトインスタンス、コンポーネントなどの関連領域のみを文脈によって色付けすることが目標です。ランダムな着色スキームを使用することで、モデルは特定の色合いに依存するのではなく、与えられたジョブを実行するために文脈データを参照する必要があります。これにより、より適応性と一般性のある方法でトレーニングにアプローチすることが可能になります。

標準のViTと単純なスムーズなl1損失を使用する場合、残りのトレーニングコンポーネントは同じままです。トレーニング後、SegGPTはコンテキスト内推論を使用して、オブジェクトインスタンス、スタッフ、部分、輪郭、テキストなどのいくつかのインスタンスを指定した画像やビデオでさまざまなセグメンテーションタスクを実行することができます。彼らは、マルチ例示のシナリオでモデルが利用できるようにするためのシンプルでパワフルなコンテキストアンサンブルテクニックであるフィーチャーアンサンブルを提案しています。ADE20Kセマンティックセグメンテーションなどの特定のユースケースにカスタマイズされたプロンプトを調整することで、SegGPTはモデルパラメータを変更することなく専門モデルとしても簡単に機能することができます。

これらが彼らの主な貢献です。

(1)初めて、幅広いセグメンテーションタスクを自動的に完了する単一の一般モデルを示しています。

(2)セマンティックセグメンテーション、ビデオオブジェクトセグメンテーション、意味的セグメンテーション、パノプティックセグメンテーションなどのさまざまなタスクについて、事前トレーニングされたSegGPTを微調整せずに直接評価します。

(3)主観的および統計的に、彼らの結果は、ドメイン内外のターゲットをセグメンテーションする能力を示しています。ただし、彼らの研究は、あらゆるベンチマークで新たな最先端の結果を達成することや、既存の専門的なアプローチを凌駕することを約束するものではありません。一般的なモデルは、特定のタスクを処理できない場合があると考えているためです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「アフリカと中東で5人の生成型AIイノベーターに会おう」

起業家たちは、西アフリカの西海岸からアラビア砂漠の東端まで、生成的AIを育てています。 Gen AIは、コーヒ・ゲンフィとニー...

機械学習

「大規模な言語モデルを使用した顧客調査フィードバック分析の強化」

はじめに 顧客フィードバック分析の世界へようこそ。顧客の意見の未探索の富は、ビジネスの成功を形作ることができます。今日...

AI研究

CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相...

データサイエンス

「オープンソースLLMの完全ガイド」

この包括的なガイドを使って、オープンソースの大規模言語モデル(LLM)の世界を開放し、プロジェクトで共同AIの力を活用して...

データサイエンス

PatchTST 時系列予測における画期的な技術革新

トランスフォーマーベースのモデルは、自然言語処理の分野(BERTやGPTモデルなど)やコンピュータビジョンなど、多くの分野で...

データサイエンス

「2023年の公共セクターにおけるデータストリーミングの状況」

この投稿では、アメリカの国防総省、NASA、ドイツ鉄道などのケーススタディを交えながら、公共セクターや政府におけるデータ...