「SegGPT」にお会いください:コンテキスト推論を通じて画像または動画の任意のセグメンテーションタスクを実行する汎用モデル

「SegGPT」は、コンテキスト推論を通じて画像または動画のセグメンテーションタスクを実行する汎用モデルです

コンピュータビジョンでは、前景、カテゴリ、オブジェクトインスタンスなどの重要な概念をピクセルレベルで特定し、再構成することを目指しており、セグメンテーションは最も基本的な課題の1つです。前景セグメンテーション、インタラクティブセグメンテーション、意味的セグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションなどのさまざまなセグメンテーションタスクについて、近年、かなりの進展がありました。ただし、これらの専門的なセグメンテーションモデルは、特定のタスク、分類、粒度、データ形式などに制約があります。新しい環境に適応する際に、例えば新しい概念をセグメンテーションしたり、写真ではなくビデオ内のオブジェクトをセグメンテーションする場合、新しいモデルをトレーニングする必要があります。

この研究では、無限のセグメンテーションタスクに対応できる単一のモデルをトレーニングすることを目標としています。これには時間のかかる注釈作業が必要であり、多くのセグメンテーションジョブに対して持続可能性が求められます。主な難点は2つの領域にあります:(1)部分、意味的、インスタンス、パノプティック、人物、医療画像、航空画像など、非常に異なるデータタイプをトレーニングに組み込むこと。(2)従来のマルチタスク学習とは異なる一般化可能なトレーニングスキームを作成することであり、タスクの定義が柔軟で、自身の範囲外のタスクを処理できるものです。これらの問題を克服するために、北京アカデミー、浙江大学、北京大学の研究者は、セグモデルを紹介し、文脈内で何でもセグメンテーションするための一般化パラダイムを提案しています。

彼らは、多くのセグメンテーションタスクを一般化した文脈内学習フレームワークに統合し、セグメンテーションを視覚知覚の一般的な形式と見なしています。このフレームワークは、それらを同じ画像形式に変換することで、さまざまなセグメンテーションデータタイプを処理できます。各データサンプルに対してランダムな色マッピングを使用することで、SegGPTトレーニング問題は文脈内の着色問題として表現されます。クラス、オブジェクトインスタンス、コンポーネントなどの関連領域のみを文脈によって色付けすることが目標です。ランダムな着色スキームを使用することで、モデルは特定の色合いに依存するのではなく、与えられたジョブを実行するために文脈データを参照する必要があります。これにより、より適応性と一般性のある方法でトレーニングにアプローチすることが可能になります。

標準のViTと単純なスムーズなl1損失を使用する場合、残りのトレーニングコンポーネントは同じままです。トレーニング後、SegGPTはコンテキスト内推論を使用して、オブジェクトインスタンス、スタッフ、部分、輪郭、テキストなどのいくつかのインスタンスを指定した画像やビデオでさまざまなセグメンテーションタスクを実行することができます。彼らは、マルチ例示のシナリオでモデルが利用できるようにするためのシンプルでパワフルなコンテキストアンサンブルテクニックであるフィーチャーアンサンブルを提案しています。ADE20Kセマンティックセグメンテーションなどの特定のユースケースにカスタマイズされたプロンプトを調整することで、SegGPTはモデルパラメータを変更することなく専門モデルとしても簡単に機能することができます。

これらが彼らの主な貢献です。

(1)初めて、幅広いセグメンテーションタスクを自動的に完了する単一の一般モデルを示しています。

(2)セマンティックセグメンテーション、ビデオオブジェクトセグメンテーション、意味的セグメンテーション、パノプティックセグメンテーションなどのさまざまなタスクについて、事前トレーニングされたSegGPTを微調整せずに直接評価します。

(3)主観的および統計的に、彼らの結果は、ドメイン内外のターゲットをセグメンテーションする能力を示しています。ただし、彼らの研究は、あらゆるベンチマークで新たな最先端の結果を達成することや、既存の専門的なアプローチを凌駕することを約束するものではありません。一般的なモデルは、特定のタスクを処理できない場合があると考えているためです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

このAI研究論文は、視覚の位置推定とマッピングのための深層学習に関する包括的な調査を提供しています

もし私があなたに「今どこにいるの?」または「周りの様子はどうですか?」と尋ねたら、人間の多感覚知覚という独特な能力の...

機械学習

「LangChain、Activeloop、そしてGPT-4を使用して、Redditのソースコードをリバースエンジニアリングするための分かりやすいガイド」

この記事では、Redditのバージョン1のソースコードをリバースエンジニアリングして、その動作をより理解します

コンピュータサイエンス

言葉の解明:AIによる詩と文学の進化' (Kotoba no kaimei AI ni yoru shi to bungaku no shinka)

イントロダクション 人工知能の時代において、創作活動は変革の時を迎えています。アルゴリズムが感情を呼び起こす詩や物語を...

AI研究

腫瘍の起源の解読:MITとDana-Farber研究者が機械学習を活用して遺伝子配列を分析する方法

MITとDana-Farber Cancer Instituteの画期的な共同研究により、機械学習の力ががん治療における困難な課題に取り組むために活...

人工知能

BScの後に何をすべきか?トップ10のキャリアオプションを探索する

イントロダクション 科学はしばしば無限の可能性の源であり、さまざまな分野でのさらなる研究や雇用の広大な機会を提供します...

人工知能

AIがあなたのように文章を書く方法(クロード2のチュートリアル)

「あなたはClaude 2の回答をChatGPTよりもずっと人間らしくすることができます」