「SegGPT」にお会いください:コンテキスト推論を通じて画像または動画の任意のセグメンテーションタスクを実行する汎用モデル

「SegGPT」は、コンテキスト推論を通じて画像または動画のセグメンテーションタスクを実行する汎用モデルです

コンピュータビジョンでは、前景、カテゴリ、オブジェクトインスタンスなどの重要な概念をピクセルレベルで特定し、再構成することを目指しており、セグメンテーションは最も基本的な課題の1つです。前景セグメンテーション、インタラクティブセグメンテーション、意味的セグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションなどのさまざまなセグメンテーションタスクについて、近年、かなりの進展がありました。ただし、これらの専門的なセグメンテーションモデルは、特定のタスク、分類、粒度、データ形式などに制約があります。新しい環境に適応する際に、例えば新しい概念をセグメンテーションしたり、写真ではなくビデオ内のオブジェクトをセグメンテーションする場合、新しいモデルをトレーニングする必要があります。

この研究では、無限のセグメンテーションタスクに対応できる単一のモデルをトレーニングすることを目標としています。これには時間のかかる注釈作業が必要であり、多くのセグメンテーションジョブに対して持続可能性が求められます。主な難点は2つの領域にあります:(1)部分、意味的、インスタンス、パノプティック、人物、医療画像、航空画像など、非常に異なるデータタイプをトレーニングに組み込むこと。(2)従来のマルチタスク学習とは異なる一般化可能なトレーニングスキームを作成することであり、タスクの定義が柔軟で、自身の範囲外のタスクを処理できるものです。これらの問題を克服するために、北京アカデミー、浙江大学、北京大学の研究者は、セグモデルを紹介し、文脈内で何でもセグメンテーションするための一般化パラダイムを提案しています。

彼らは、多くのセグメンテーションタスクを一般化した文脈内学習フレームワークに統合し、セグメンテーションを視覚知覚の一般的な形式と見なしています。このフレームワークは、それらを同じ画像形式に変換することで、さまざまなセグメンテーションデータタイプを処理できます。各データサンプルに対してランダムな色マッピングを使用することで、SegGPTトレーニング問題は文脈内の着色問題として表現されます。クラス、オブジェクトインスタンス、コンポーネントなどの関連領域のみを文脈によって色付けすることが目標です。ランダムな着色スキームを使用することで、モデルは特定の色合いに依存するのではなく、与えられたジョブを実行するために文脈データを参照する必要があります。これにより、より適応性と一般性のある方法でトレーニングにアプローチすることが可能になります。

標準のViTと単純なスムーズなl1損失を使用する場合、残りのトレーニングコンポーネントは同じままです。トレーニング後、SegGPTはコンテキスト内推論を使用して、オブジェクトインスタンス、スタッフ、部分、輪郭、テキストなどのいくつかのインスタンスを指定した画像やビデオでさまざまなセグメンテーションタスクを実行することができます。彼らは、マルチ例示のシナリオでモデルが利用できるようにするためのシンプルでパワフルなコンテキストアンサンブルテクニックであるフィーチャーアンサンブルを提案しています。ADE20Kセマンティックセグメンテーションなどの特定のユースケースにカスタマイズされたプロンプトを調整することで、SegGPTはモデルパラメータを変更することなく専門モデルとしても簡単に機能することができます。

これらが彼らの主な貢献です。

(1)初めて、幅広いセグメンテーションタスクを自動的に完了する単一の一般モデルを示しています。

(2)セマンティックセグメンテーション、ビデオオブジェクトセグメンテーション、意味的セグメンテーション、パノプティックセグメンテーションなどのさまざまなタスクについて、事前トレーニングされたSegGPTを微調整せずに直接評価します。

(3)主観的および統計的に、彼らの結果は、ドメイン内外のターゲットをセグメンテーションする能力を示しています。ただし、彼らの研究は、あらゆるベンチマークで新たな最先端の結果を達成することや、既存の専門的なアプローチを凌駕することを約束するものではありません。一般的なモデルは、特定のタスクを処理できない場合があると考えているためです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「インドにおけるAI規制のためのPMモディのビジョン:B20サミット2023」

2023年、B20サミットインドがデリーで終了するにつれ、ナレンドラ・モディ首相の言葉の響きは続きました。ビジネスリーダーた...

機械学習

ウェイト、バイアス、ロスのアンボクシング:ディープラーニングに集中する

ディープラーニングは、大量のデータを自動的に利用して、コンピュータが人間と同様に学ぶために層状のニューラルネットワー...

機械学習

「BoomiのCEOが統合と自動化プラットフォームのビジョンを概説」

「AIを活用したプラットフォームがデジタルの分断を乗り越え、開発者に力を与え、企業がより迅速にデータからビジネス価値を...

データサイエンス

「AIはほとんどのパスワードを1分以内に解読できますAI攻撃からパスワードを保護する方法」

人工知能(AI)は、次の技術革新の波をもたらしています。AIの能力に魅了される一方で、その潜在的なリスクへの懸念も高まっ...

機械学習

「FalconAI、LangChain、およびChainlitを使用してチャットボットを作成する」

イントロダクション ジェネレーティブAI、特にジェネレーティブ大規模言語モデルは、その誕生以来世界を席巻しています。これ...

人工知能

「Midjourneyを使ってYouTubeのサムネイルを作る方法(販売可能なもの)」

無料でMidjourneyを使って、高品質なYouTubeのサムネイル(オンラインで販売可能)を作成することができます