「SegGPT」にお会いください:コンテキスト推論を通じて画像または動画の任意のセグメンテーションタスクを実行する汎用モデル

「SegGPT」は、コンテキスト推論を通じて画像または動画のセグメンテーションタスクを実行する汎用モデルです

コンピュータビジョンでは、前景、カテゴリ、オブジェクトインスタンスなどの重要な概念をピクセルレベルで特定し、再構成することを目指しており、セグメンテーションは最も基本的な課題の1つです。前景セグメンテーション、インタラクティブセグメンテーション、意味的セグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションなどのさまざまなセグメンテーションタスクについて、近年、かなりの進展がありました。ただし、これらの専門的なセグメンテーションモデルは、特定のタスク、分類、粒度、データ形式などに制約があります。新しい環境に適応する際に、例えば新しい概念をセグメンテーションしたり、写真ではなくビデオ内のオブジェクトをセグメンテーションする場合、新しいモデルをトレーニングする必要があります。

この研究では、無限のセグメンテーションタスクに対応できる単一のモデルをトレーニングすることを目標としています。これには時間のかかる注釈作業が必要であり、多くのセグメンテーションジョブに対して持続可能性が求められます。主な難点は2つの領域にあります:(1)部分、意味的、インスタンス、パノプティック、人物、医療画像、航空画像など、非常に異なるデータタイプをトレーニングに組み込むこと。(2)従来のマルチタスク学習とは異なる一般化可能なトレーニングスキームを作成することであり、タスクの定義が柔軟で、自身の範囲外のタスクを処理できるものです。これらの問題を克服するために、北京アカデミー、浙江大学、北京大学の研究者は、セグモデルを紹介し、文脈内で何でもセグメンテーションするための一般化パラダイムを提案しています。

彼らは、多くのセグメンテーションタスクを一般化した文脈内学習フレームワークに統合し、セグメンテーションを視覚知覚の一般的な形式と見なしています。このフレームワークは、それらを同じ画像形式に変換することで、さまざまなセグメンテーションデータタイプを処理できます。各データサンプルに対してランダムな色マッピングを使用することで、SegGPTトレーニング問題は文脈内の着色問題として表現されます。クラス、オブジェクトインスタンス、コンポーネントなどの関連領域のみを文脈によって色付けすることが目標です。ランダムな着色スキームを使用することで、モデルは特定の色合いに依存するのではなく、与えられたジョブを実行するために文脈データを参照する必要があります。これにより、より適応性と一般性のある方法でトレーニングにアプローチすることが可能になります。

標準のViTと単純なスムーズなl1損失を使用する場合、残りのトレーニングコンポーネントは同じままです。トレーニング後、SegGPTはコンテキスト内推論を使用して、オブジェクトインスタンス、スタッフ、部分、輪郭、テキストなどのいくつかのインスタンスを指定した画像やビデオでさまざまなセグメンテーションタスクを実行することができます。彼らは、マルチ例示のシナリオでモデルが利用できるようにするためのシンプルでパワフルなコンテキストアンサンブルテクニックであるフィーチャーアンサンブルを提案しています。ADE20Kセマンティックセグメンテーションなどの特定のユースケースにカスタマイズされたプロンプトを調整することで、SegGPTはモデルパラメータを変更することなく専門モデルとしても簡単に機能することができます。

これらが彼らの主な貢献です。

(1)初めて、幅広いセグメンテーションタスクを自動的に完了する単一の一般モデルを示しています。

(2)セマンティックセグメンテーション、ビデオオブジェクトセグメンテーション、意味的セグメンテーション、パノプティックセグメンテーションなどのさまざまなタスクについて、事前トレーニングされたSegGPTを微調整せずに直接評価します。

(3)主観的および統計的に、彼らの結果は、ドメイン内外のターゲットをセグメンテーションする能力を示しています。ただし、彼らの研究は、あらゆるベンチマークで新たな最先端の結果を達成することや、既存の専門的なアプローチを凌駕することを約束するものではありません。一般的なモデルは、特定のタスクを処理できない場合があると考えているためです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIとML開発言語としてのPythonの利点」

「AIやMLなどのツールを使用して、ウェブ開発会社が業界を征服するためにPythonがますます使用されている理由を発見してくだ...

AIニュース

人工知能によって設計された薬剤が、人間の試験のために準備ができました

中国の複合企業フォン・グループとプライベートエクイティ企業ウォルバーグ・ピンカスに支援されたバイオテック企業Insilico ...

データサイエンス

「インド、人工知能を利用し言語の壁を解消へと向かう」

インドは人工知能(AI)を活用し、言語の壁を乗り越え、多様な人口の包括的参加を確保しようとしています。南西部の州である...

機械学習

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です...

機械学習

「LangChainとは何ですか?利用事例と利点」

LangChainはプログラマが大規模言語モデルを用いてアプリケーションを開発するための人工知能フレームワークです。ライブラリ...

データサイエンス

自律AIエージェント:データサイエンスと技術の未来を切り拓く先駆者

イントロダクション テクノロジーのダイナミックな風景において、自律型AIエージェントは変革的な存在として登場し、データと...