「ビデオセグメンテーションはよりコスト効果的になることができるのか?アノテーションを節約し、タスク間で一般化するための分離型ビデオセグメンテーションアプローチDEVAに会いましょう」

DEVA, a separate video segmentation approach, can save annotation costs and generalize across tasks. Can video segmentation become more cost-effective?

監視システムがどのように動作し、ビデオのみを使用して個人や車両を識別する方法について考えたことはありますか?また、水中ドキュメンタリーを使用してオルカを識別する方法や、ライブスポーツ分析の方法についても知りたいですか?これらのすべては、ビデオセグメンテーションによって行われます。ビデオセグメンテーションは、オブジェクトの境界、動き、色、テクスチャなど、特定の特徴に基づいてビデオを複数の領域に分割するプロセスです。基本的なアイデアは、ビデオ内の異なるオブジェクトと背景および時間的なイベントを識別し分離し、視覚的なコンテンツのより詳細で構造化された表現を提供することです。

ビデオセグメンテーションのアルゴリズムの利用を拡大することは、多くのデータにラベルを付ける必要があるため、コストがかかる場合があります。特定のタスクごとにアルゴリズムをトレーニングする必要がないように、研究者たちはデカップルドビデオセグメンテーションDEVAを考案しました。DEVAには、個々のフレーム内のオブジェクトを見つけるための専用のパートと、オブジェクトが何であるかに関係なく、時間的なつながりを支援するもう1つのパートがあります。このようにして、DEVAはより柔軟かつ適応性のあるさまざまなビデオセグメンテーションタスクに対応できるようになり、広範なトレーニングデータが必要ありません。

この設計では、興味のある特定のタスクのためのより単純なイメージレベルモデル(トレーニングがより安価)と、一度だけトレーニングする必要がある汎用的な時間伝播モデルを使用します。これら2つのモジュールを効果的に連携させるために、研究者は双方向伝播アプローチを使用します。これにより、異なるフレームからのセグメンテーションの推測をマージし、最終的なセグメンテーションが一貫して見えるようにします。オンラインまたはリアルタイムで行われる場合でも同様です。

上記の画像は、フレームワークの概要を提供しています。研究チームは、まず画像レベルのセグメンテーションをクリップ内の合意に基づいてフィルタリングし、結果を時間的に伝播させます。後の時間ステップで新しい画像セグメンテーションを組み込むために(以前に見たことのないオブジェクト、例えば赤いボックスなど)、伝播された結果をクリップ内の合意と統合します。

この研究で採用されたアプローチは、特定のターゲットタスクへの依存度を減らすために、外部のタスクに関係のないデータを大いに活用しています。これにより、利用可能なデータが限られているタスクに対して、エンドツーエンドの方法と比較してより優れた一般化能力が得られます。さらに、微調整も必要ありません。汎用的な画像セグメンテーションモデルと組み合わせると、このデカップルドパラダイムは最先端のパフォーマンスを示します。それは間違いなく、オープンワールドのコンテキストで最先端の大語彙ビデオセグメンテーションを達成するための初歩的な進歩を表しています!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Microsoft BingはNVIDIA Tritonを使用して広告配信を高速化

Jiusheng Chen氏のチームは加速しました。 彼らは、NVIDIA Triton Inference ServerをNVIDIA A100 Tensor Core GPUで実行する...

AI研究

NYUとNVIDIAが協力して、患者の再入院を予測するための大規模言語モデルを開発する

退院は患者にとって重要なマイルストーンですが、時には回復への道のりの終わりではありません。米国では、初回退院後30日以...

AIニュース

Googleの安全なAIフレームワークを紹介します

今日、GoogleはSecure AI Frameworkをリリースし、協力してAI技術を安全に保護するのを支援します

機械学習

「アフリカと中東で5人の生成型AIイノベーターに会おう」

起業家たちは、西アフリカの西海岸からアラビア砂漠の東端まで、生成的AIを育てています。 Gen AIは、コーヒ・ゲンフィとニー...

機械学習

「機械学習モデルを展開する」とはどういう意味ですか?

データサイエンスは、ますます多くの企業を引き付け続ける有望な分野ですが、産業化プロセスに統合されるのに苦労しています...

人工知能

コード生成のための5つのChatGPTの代替手段:超高速開発へのハイパードライブ

「ChatGPT の代わりにコード生成を強化し、開発を加速させるための 5 つの強力な代替手段を見つけよう最高のツールをいくつか...