AIの物体認識をどのように進化させることができるのか? このAIの論文は、強化された画像と動画の分析のための普遍的な物体レベルの基礎モデルGLEEを紹介します

『AIの物体認識の進化―普遍的な物体レベルの基礎モデルGLEE』

画像やビデオの物体認識は、機械に視覚世界を解読する力を与えます。仮想の探偵のように、コンピュータビジョンシステムはピクセルをスキャンし、デジタル体験のキャンバスに描かれた多くの物体を認識、追跡、理解します。このディープラーニングの力による技術的な能力は、自動運転車が都市の風景をナビゲートすることから、視覚的なエンカウンターにより多くの知能を追加する仮想アシスタントまで、変革的な応用の扉を開きます。

中国科学技術大学、字節跳動、ジョンズ・ホプキンズ大学の研究者たちは、画像とビデオの物体認識のための多目的モデルGLEEを紹介しています。GLEEは、物体の位置特定と識別に優れており、タスクに固有の適応なしでさまざまなタスクに対して優れた汎化性能を示します。大規模言語モデルの統合も可能であり、多モーダル研究のための普遍的な物体レベルの情報を提供します。さまざまなデータソースからの知識の取得能力により、効率が向上し、異なる物体認識タスクの処理能力が向上します。

GLEEは、画像エンコーダ、テキストエンコーダ、ビジュアルプロンプタを統合し、多モーダル入力処理と一般化物体表現予測を行います。Objects365、COCO、Visual Genomeなどのさまざまなデータセットで訓練されたGLEEは、オープンワールドのシナリオで物体の検出、セグメンテーション、トラッキング、グラウンディング、識別を行うための統一されたフレームワークを使用します。動的なクラスヘッドを持つMaskDINOに基づいたオブジェクトデコーダは、予測のために類似性計算を使用します。物体検出とインスタンスセグメンテーションでプリトレーニングされた後、結合トレーニングにより、さまざまな下流の画像とビデオのタスクにおいて最先端のパフォーマンスを実現します。

GLEEは、特定のタスクに特化した適応なしで多様な下流のタスクに対応する傑出した汎化性能と拡張性を示しました。物体検出、インスタンスセグメンテーション、グラウンディング、マルチターゲットトラッキング、ビデオインスタンスセグメンテーション、ビデオオブジェクトセグメンテーション、インタラクティブセグメンテーションとトラッキングなど、さまざまな画像とビデオのタスクで優れたパフォーマンスを発揮します。GLEEは他のモデルに統合された場合でも最先端のパフォーマンスを維持し、その表現の多様性と効果的な性能を示します。ゼロショットの汎化性能は、自動的にラベル付けされた大量のデータを組み込むことでさらに向上します。また、GLEEは基盤モデルとしての役割も果たします。

https://arxiv.org/abs/2312.09158

GLEEは、現在のビジュアル基盤モデルの限界を克服し、正確かつ普遍的な物体レベルの情報を提供する画期的な一般物体基盤モデルです。GLEEは多様な物体中心のタスクに堪能であり、ゼロショットの転送シナリオでも特に優れた汎化性能を示します。さまざまなデータソースを使用して一般的な物体表現を組み込むことで、スケーラブルなデータセットの拡張とゼロショットの能力を向上させます。モデルは複数のデータソースをサポートしており、追加の注釈を容易に組み込むことで、さまざまな下流のタスクにおいて最先端のパフォーマンスを実現し、既存のモデルを凌駕します。

これまで行われた研究の範囲と将来の研究の方向は、以下に焦点を当てることができます:

  • 複雑なシナリオや長尾分布を持つチャレンジングなデータセットを扱うGLEEの能力を拡大するための継続的な研究です。
  • 特化したモデルを統合することで、GLEEの普遍的な物体レベル表現を活用し、マルチモーダルなタスクの性能を向上させることを目指しています。
  • DALL-Eなどのモデルと同様に、広範な画像キャプションのペアをトレーニングすることで、GLEEのテキスト指示に基づいた詳細な画像コンテンツの生成の可能性を探っています。
  • オブジェクトレベルのタスクへの応用範囲を広げるために、GLEEの物理的な文脈を組み込んだオブジェクトレベルの情報を強化しています。
  • インタラクティブなセグメンテーションとトラッキングの機能のさらなる開発は、さまざまなビジュアルプロンプトの探索やオブジェクトセグメンテーションのスキルの改善を含みます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ノイズ除去オートエンコーダの公開

はじめに デノイジングオートエンコーダーは、ノイズの混入したデータまたはノイズのあるデータから元のデータを再構築するこ...

機械学習

ソフトウェアエンジニアリングの未来 生成AIによる変革

この記事では、Generative AI(およびLarge Language Models)の出現と、それがソフトウェアエンジニアリングの将来をどのよ...

AIニュース

「私たちの10の最大のAIの瞬間」

過去25年間の私たちのトップ10のAIの瞬間をまとめました

データサイエンス

データ・コモンズは、AIを使用して世界の公共データをよりアクセスしやすく、役に立つものにしています

「データコモンズ」についての説明これは、Googleが公に利用可能なデータを社会的な課題の解決に取り組む人々により有益にす...

機械学習

このAI論文では、リーマン幾何学を通じて拡散モデルの潜在空間の理解に深入りします

人工知能や機械学習の人気が高まる中で、自然言語処理や自然言語生成などの主要なサブフィールドも高速に進化しています。最...

AI研究

ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓

Googleストリートビューなどで使用される画像は、フロリダ大学の人工知能助教授Chaofeng Wang氏の手によって新たな目的を持つ...