3Dで「ウォーリーを探せ」をプレイする:OpenMask3Dは、オープンボキャブラリークエリを使用して3Dでインスタンスをセグメント化できるAIモデルです

OpenMask3Dは、3Dで「ウォーリーを探せ」をプレイするためのAIモデルですオープンボキャブラリークエリを使用して、インスタンスを3Dでセグメント化することができます

画像セグメンテーションは、ニューラルネットワークの進歩により、過去10年間で大きく進歩しました。複雑なシーンで複数のオブジェクトをミリ秒の間にセグメント化することが可能になり、結果は非常に正確です。一方、3Dの場合、インスタンスセグメンテーションという別の課題があり、2D画像セグメンテーションの性能に追いつくまでにはまだ時間がかかります。

3Dインスタンスセグメンテーションは、ロボット工学や拡張現実などの分野で重要な課題として浮上しています。3Dインスタンスセグメンテーションの目的は、3Dシーン内のオブジェクトインスタンスのマスクとそれに対応するカテゴリを予測することです。この分野で注目すべき進展がある一方、既存の手法は主にクローズドセットのパラダイムの下で操作され、トレーニングに使用されたデータセットに制約されたオブジェクトカテゴリの集合に密接に関連しています。

この制約には2つの根本的な問題があります。まず、クローズドボキャブラリーのアプローチでは、トレーニング中に遭遇したオブジェクトカテゴリを超えたシーンを理解するのが困難であり、新しいオブジェクトの認識や誤分類の可能性があります。また、これらの手法は自由形式のクエリを処理する能力に限界があり、特定のオブジェクトの特性や説明を理解して行動する必要があるシナリオでの効果的な処理が妨げられます。

これらの課題に対処するために、オープンボキャブラリーのアプローチが提案されています。これらのアプローチは自由形式のクエリを処理でき、トレーニングデータに存在しないオブジェクトカテゴリのゼロショット学習を可能にします。より柔軟で広範なアプローチを採用することで、オープンボキャブラリーの手法はシーン理解、ロボット工学、拡張現実、3Dビジュアルサーチなどのタスクでいくつかの利点を提供します。

オープンボキャブラリーの3Dインスタンスセグメンテーションを可能にすることで、複雑な3Dシーンの理解と操作に依存するアプリケーションの柔軟性と実用性を大幅に向上させることができます。それでは、有望な3DインスタンスセグメンテーションモデルであるOpenMask3Dについて見てみましょう。

OpenMask3Dはオブジェクトのインスタンスをセグメント化することができます。出典:https://arxiv.org/pdf/2306.13631.pdf

OpenMask3Dは、クローズドボキャブラリーのアプローチの制約を克服することを目指しています。事前に定義された概念を超えた推論を行いながら、3Dオブジェクトのインスタンスマスクを予測し、マスクフィーチャーレプリゼンテーションを計算するタスクに取り組みます。OpenMask3DはRGB-Dシーケンス上で動作し、対応する3D再構築ジオメトリを活用して目標を達成します。

それは、クラスに関係ないマスク提案ヘッドとマスクフィーチャーアグリゲーションモジュールからなる2段階のパイプラインを使用しています。OpenMask3Dは、インスタンスが明らかなフレームを識別し、各マスクの最良の画像からCLIPフィーチャーを抽出します。得られたフィーチャーレプリゼンテーションは複数のビューで集約され、各3Dインスタンスマスクに関連付けられます。このインスタンスベースのフィーチャー計算アプローチにより、OpenMask3Dは与えられたテキストクエリとの類似性に基づいてオブジェクトのインスタンスマスクを取得する能力を備え、クローズドボキャブラリーパラダイムの制約を超えたオープンボキャブラリーの3Dインスタンスセグメンテーションを実現します。

OpenMask3Dの概要。出典:https://arxiv.org/pdf/2306.13631.pdf

OpenMask3Dは、オブジェクトインスタンスごとにマスクフィーチャーを計算することで、任意のクエリとの類似性に基づいてオブジェクトインスタンスマスクを取得することができます。また、OpenMask3Dは、トレーニングまたはファインチューニングされたモデルよりも、新しいオブジェクトやロングテールのオブジェクトに関する情報を保持します。さらに、セマンティクス、ジオメトリ、アフォーダンス、材料特性などのオブジェクトの特性に関連する自由形式のクエリに基づいてオブジェクトインスタンスのセグメンテーションを可能にすることで、クローズドボキャブラリーパラダイムの制約を超えます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「迅速エンジニアリングのための普遍的な道筋:コンテクストの足場フレームワーク(CSF)」

「最近の記事では、私はChatGPT4の新しいプロンプトエンジニアリングアプローチを探求しましたそれはプログラムシミュレーシ...

AIニュース

「NotebookLMは12以上の新機能を追加します」

「アメリカで現在利用可能なNotebookLMには、読みやすくメモを取り、執筆プロジェクトを整理するための新機能が追加されまし...

AIニュース

「ChatGPTがクラッシュしましたか? OpenAIのAIのダウンタイムと迅速な回復!」

人工知能コミュニティは一時的な挫折に直面しました。OpenAIが開発した人気のあるチャットボット、ChatGPTは「大規模な障害」...

AIニュース

ディープサーチ:Microsoft BingがGPT-4と統合

Microsoftは、OpenAIのGPT-4技術と統合した最新機能でオンライン検索を革命化する予定です。このBingの機能強化により、複雑...

機械学習

話すロボット:新しいAIモデルは、ビジョンと言語をロボットの動作に翻訳します

Google DeepMindは、ロボット技術の向上のために新しいビジョン・言語・アクションモデルを紹介します

人工知能

「2023年の最高のAIアバタージェネレーター10選」

ゲームの冒険に最適なバーチャルなキャラクターを選ぶというスリルを覚えていますか?今日では、バーチャルなアイデンティテ...