「ビデオセグメンテーションはよりコスト効果的になることができるのか?アノテーションを節約し、タスク間で一般化するための分離型ビデオセグメンテーションアプローチDEVAに会いましょう」

DEVA, a separate video segmentation approach, can save annotation costs and generalize across tasks. Can video segmentation become more cost-effective?

監視システムがどのように動作し、ビデオのみを使用して個人や車両を識別する方法について考えたことはありますか?また、水中ドキュメンタリーを使用してオルカを識別する方法や、ライブスポーツ分析の方法についても知りたいですか?これらのすべては、ビデオセグメンテーションによって行われます。ビデオセグメンテーションは、オブジェクトの境界、動き、色、テクスチャなど、特定の特徴に基づいてビデオを複数の領域に分割するプロセスです。基本的なアイデアは、ビデオ内の異なるオブジェクトと背景および時間的なイベントを識別し分離し、視覚的なコンテンツのより詳細で構造化された表現を提供することです。

ビデオセグメンテーションのアルゴリズムの利用を拡大することは、多くのデータにラベルを付ける必要があるため、コストがかかる場合があります。特定のタスクごとにアルゴリズムをトレーニングする必要がないように、研究者たちはデカップルドビデオセグメンテーションDEVAを考案しました。DEVAには、個々のフレーム内のオブジェクトを見つけるための専用のパートと、オブジェクトが何であるかに関係なく、時間的なつながりを支援するもう1つのパートがあります。このようにして、DEVAはより柔軟かつ適応性のあるさまざまなビデオセグメンテーションタスクに対応できるようになり、広範なトレーニングデータが必要ありません。

この設計では、興味のある特定のタスクのためのより単純なイメージレベルモデル(トレーニングがより安価)と、一度だけトレーニングする必要がある汎用的な時間伝播モデルを使用します。これら2つのモジュールを効果的に連携させるために、研究者は双方向伝播アプローチを使用します。これにより、異なるフレームからのセグメンテーションの推測をマージし、最終的なセグメンテーションが一貫して見えるようにします。オンラインまたはリアルタイムで行われる場合でも同様です。

上記の画像は、フレームワークの概要を提供しています。研究チームは、まず画像レベルのセグメンテーションをクリップ内の合意に基づいてフィルタリングし、結果を時間的に伝播させます。後の時間ステップで新しい画像セグメンテーションを組み込むために(以前に見たことのないオブジェクト、例えば赤いボックスなど)、伝播された結果をクリップ内の合意と統合します。

この研究で採用されたアプローチは、特定のターゲットタスクへの依存度を減らすために、外部のタスクに関係のないデータを大いに活用しています。これにより、利用可能なデータが限られているタスクに対して、エンドツーエンドの方法と比較してより優れた一般化能力が得られます。さらに、微調整も必要ありません。汎用的な画像セグメンテーションモデルと組み合わせると、このデカップルドパラダイムは最先端のパフォーマンスを示します。それは間違いなく、オープンワールドのコンテキストで最先端の大語彙ビデオセグメンテーションを達成するための初歩的な進歩を表しています!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「Googleの研究者が球面上でのディープラーニングのためのJAX向けのオープンソースライブラリを紹介します」

ディープラーニングは、入力から複雑な表現を自動的に学習する機械学習の一部です。その応用は、言語処理のための画像と音声...

データサイエンス

「2023年の公共セクターにおけるデータストリーミングの状況」

この投稿では、アメリカの国防総省、NASA、ドイツ鉄道などのケーススタディを交えながら、公共セクターや政府におけるデータ...

AI研究

「自己教師あり学習とトランスフォーマー? - DINO論文の解説」

「一部の人々は、Transformerのアーキテクチャを愛し、それをコンピュータビジョンの領域に歓迎しています他の人々は、新しい...

AIニュース

「世界最大の広告主がAIの力を受け入れる:広告業界におけるパラダイムシフト」

広告業界を再構築する可能性を秘めた動きとして、世界でも有名な広告主の一部が生成型人工知能(AI)の可能性を活用していま...

AIニュース

「AppleとGoogle、ChatGPTを年間アプリに見落とす」

驚くべき事態の中、テックジャイアントのAppleとGoogleは通常のパターンから逸脱し、それぞれの「年間最優秀アプリ」を選びま...

データサイエンス

LinkedInのフィード進化:より詳細かつパワフルな機械学習、そして依然として人間も重要

LinkedInのフィードとインフラの最新更新について読むと、人間を中心に据えた原則を技術用語と実装に繋げる方法が解説されて...