3Dで「ウォーリーを探せ」をプレイする:OpenMask3Dは、オープンボキャブラリークエリを使用して3Dでインスタンスをセグメント化できるAIモデルです

OpenMask3Dは、3Dで「ウォーリーを探せ」をプレイするためのAIモデルですオープンボキャブラリークエリを使用して、インスタンスを3Dでセグメント化することができます

画像セグメンテーションは、ニューラルネットワークの進歩により、過去10年間で大きく進歩しました。複雑なシーンで複数のオブジェクトをミリ秒の間にセグメント化することが可能になり、結果は非常に正確です。一方、3Dの場合、インスタンスセグメンテーションという別の課題があり、2D画像セグメンテーションの性能に追いつくまでにはまだ時間がかかります。

3Dインスタンスセグメンテーションは、ロボット工学や拡張現実などの分野で重要な課題として浮上しています。3Dインスタンスセグメンテーションの目的は、3Dシーン内のオブジェクトインスタンスのマスクとそれに対応するカテゴリを予測することです。この分野で注目すべき進展がある一方、既存の手法は主にクローズドセットのパラダイムの下で操作され、トレーニングに使用されたデータセットに制約されたオブジェクトカテゴリの集合に密接に関連しています。

この制約には2つの根本的な問題があります。まず、クローズドボキャブラリーのアプローチでは、トレーニング中に遭遇したオブジェクトカテゴリを超えたシーンを理解するのが困難であり、新しいオブジェクトの認識や誤分類の可能性があります。また、これらの手法は自由形式のクエリを処理する能力に限界があり、特定のオブジェクトの特性や説明を理解して行動する必要があるシナリオでの効果的な処理が妨げられます。

これらの課題に対処するために、オープンボキャブラリーのアプローチが提案されています。これらのアプローチは自由形式のクエリを処理でき、トレーニングデータに存在しないオブジェクトカテゴリのゼロショット学習を可能にします。より柔軟で広範なアプローチを採用することで、オープンボキャブラリーの手法はシーン理解、ロボット工学、拡張現実、3Dビジュアルサーチなどのタスクでいくつかの利点を提供します。

オープンボキャブラリーの3Dインスタンスセグメンテーションを可能にすることで、複雑な3Dシーンの理解と操作に依存するアプリケーションの柔軟性と実用性を大幅に向上させることができます。それでは、有望な3DインスタンスセグメンテーションモデルであるOpenMask3Dについて見てみましょう。

OpenMask3Dはオブジェクトのインスタンスをセグメント化することができます。出典:https://arxiv.org/pdf/2306.13631.pdf

OpenMask3Dは、クローズドボキャブラリーのアプローチの制約を克服することを目指しています。事前に定義された概念を超えた推論を行いながら、3Dオブジェクトのインスタンスマスクを予測し、マスクフィーチャーレプリゼンテーションを計算するタスクに取り組みます。OpenMask3DはRGB-Dシーケンス上で動作し、対応する3D再構築ジオメトリを活用して目標を達成します。

それは、クラスに関係ないマスク提案ヘッドとマスクフィーチャーアグリゲーションモジュールからなる2段階のパイプラインを使用しています。OpenMask3Dは、インスタンスが明らかなフレームを識別し、各マスクの最良の画像からCLIPフィーチャーを抽出します。得られたフィーチャーレプリゼンテーションは複数のビューで集約され、各3Dインスタンスマスクに関連付けられます。このインスタンスベースのフィーチャー計算アプローチにより、OpenMask3Dは与えられたテキストクエリとの類似性に基づいてオブジェクトのインスタンスマスクを取得する能力を備え、クローズドボキャブラリーパラダイムの制約を超えたオープンボキャブラリーの3Dインスタンスセグメンテーションを実現します。

OpenMask3Dの概要。出典:https://arxiv.org/pdf/2306.13631.pdf

OpenMask3Dは、オブジェクトインスタンスごとにマスクフィーチャーを計算することで、任意のクエリとの類似性に基づいてオブジェクトインスタンスマスクを取得することができます。また、OpenMask3Dは、トレーニングまたはファインチューニングされたモデルよりも、新しいオブジェクトやロングテールのオブジェクトに関する情報を保持します。さらに、セマンティクス、ジオメトリ、アフォーダンス、材料特性などのオブジェクトの特性に関連する自由形式のクエリに基づいてオブジェクトインスタンスのセグメンテーションを可能にすることで、クローズドボキャブラリーパラダイムの制約を超えます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Google DeepMindは、ChatGPTを超えるアルゴリズムの開発に取り組んでいます

画期的な発表により、GoogleのDeepMind AI研究所のCEOであるデミス・ハサビス氏は、革新的なAIシステムであるGeminiの開発を...

AI研究

新しい研究論文が、化学の論文がChatbot ChatGPTを使用して書かれた時に簡単に見分けることができる機械学習ツールを紹介しています

AIの進歩が支配的な時代において、特に科学論文における人間とAIによるコンテンツの区別はますます重要になっています。この...

人工知能

フロントエンド開発のトレンド

最先端の進歩や最高水準のイノベーションが、現在ウェブ開発の世界を形作っている様子について、私たちと一緒に深く掘り下げ...

機械学習

チューリングテスト、中国の部屋、そして大規模言語モデル

チューリングテストは、AIの分野での古典的なアイデアですもともとは模倣ゲームと呼ばれ、アラン・チューリングは1950年に自...

AIニュース

「英国初のAIカメラ、わずか3日で300人の犯罪者を摘発」

イギリスの道路安全の風景は、フリースタンディングの人工知能(AI)道路安全カメラの登場によって革命的な変革を遂げていま...

人工知能

ChatGPT Vislaプラグインを使用してビデオを作成する方法

たった一つのプロンプトで、Visla ChatGPTプラグインはわずか数秒でスクリプトとストック画像を使用したビデオを作成します