「ビデオセグメンテーションはよりコスト効果的になることができるのか?アノテーションを節約し、タスク間で一般化するための分離型ビデオセグメンテーションアプローチDEVAに会いましょう」

DEVA, a separate video segmentation approach, can save annotation costs and generalize across tasks. Can video segmentation become more cost-effective?

監視システムがどのように動作し、ビデオのみを使用して個人や車両を識別する方法について考えたことはありますか?また、水中ドキュメンタリーを使用してオルカを識別する方法や、ライブスポーツ分析の方法についても知りたいですか?これらのすべては、ビデオセグメンテーションによって行われます。ビデオセグメンテーションは、オブジェクトの境界、動き、色、テクスチャなど、特定の特徴に基づいてビデオを複数の領域に分割するプロセスです。基本的なアイデアは、ビデオ内の異なるオブジェクトと背景および時間的なイベントを識別し分離し、視覚的なコンテンツのより詳細で構造化された表現を提供することです。

ビデオセグメンテーションのアルゴリズムの利用を拡大することは、多くのデータにラベルを付ける必要があるため、コストがかかる場合があります。特定のタスクごとにアルゴリズムをトレーニングする必要がないように、研究者たちはデカップルドビデオセグメンテーションDEVAを考案しました。DEVAには、個々のフレーム内のオブジェクトを見つけるための専用のパートと、オブジェクトが何であるかに関係なく、時間的なつながりを支援するもう1つのパートがあります。このようにして、DEVAはより柔軟かつ適応性のあるさまざまなビデオセグメンテーションタスクに対応できるようになり、広範なトレーニングデータが必要ありません。

この設計では、興味のある特定のタスクのためのより単純なイメージレベルモデル(トレーニングがより安価)と、一度だけトレーニングする必要がある汎用的な時間伝播モデルを使用します。これら2つのモジュールを効果的に連携させるために、研究者は双方向伝播アプローチを使用します。これにより、異なるフレームからのセグメンテーションの推測をマージし、最終的なセグメンテーションが一貫して見えるようにします。オンラインまたはリアルタイムで行われる場合でも同様です。

上記の画像は、フレームワークの概要を提供しています。研究チームは、まず画像レベルのセグメンテーションをクリップ内の合意に基づいてフィルタリングし、結果を時間的に伝播させます。後の時間ステップで新しい画像セグメンテーションを組み込むために(以前に見たことのないオブジェクト、例えば赤いボックスなど)、伝播された結果をクリップ内の合意と統合します。

この研究で採用されたアプローチは、特定のターゲットタスクへの依存度を減らすために、外部のタスクに関係のないデータを大いに活用しています。これにより、利用可能なデータが限られているタスクに対して、エンドツーエンドの方法と比較してより優れた一般化能力が得られます。さらに、微調整も必要ありません。汎用的な画像セグメンテーションモデルと組み合わせると、このデカップルドパラダイムは最先端のパフォーマンスを示します。それは間違いなく、オープンワールドのコンテキストで最先端の大語彙ビデオセグメンテーションを達成するための初歩的な進歩を表しています!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「生成的なAIアプリケーションと3D仮想世界の構築方法」

成長し成功するためには、組織は特に生成AIや3D仮想世界のような急速に進化する技術領域において、技術スキルの開発に継続的...

データサイエンス

生成AIモデル:マーチャンダイジング分析のユーザーエクスペリエンス向上

私たちのデータプラットフォームで利用可能なデータについて、ビジネスユーザーが何でも尋ねることができるように、生成型AI...

人工知能

「AIガバナンスにおけるステークホルダー分析の包括的ガイド(パート2)」

「著者注:本記事はAIガバナンスにおけるステークホルダー分析の包括的なガイドのパート2として書かれていますパート1はこち...

機械学習

マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツー...

AIニュース

「AI自動化と性別格差:AIが女性労働者に与える影響」

人工知能(AI)の進歩により、労働の未来が再構築されつつあります。AIによる自動化による仕事の喪失への恐怖は広まっていま...

人工知能

「AIがまだすぐには置き換えられない8つの仕事」

皆がAIが代替する仕事について話していますが、私たちはコインの裏側、つまりAIがまもなく置き換えないであろう仕事に目を向...