3Dで「ウォーリーを探せ」をプレイする:OpenMask3Dは、オープンボキャブラリークエリを使用して3Dでインスタンスをセグメント化できるAIモデルです

OpenMask3Dは、3Dで「ウォーリーを探せ」をプレイするためのAIモデルですオープンボキャブラリークエリを使用して、インスタンスを3Dでセグメント化することができます

画像セグメンテーションは、ニューラルネットワークの進歩により、過去10年間で大きく進歩しました。複雑なシーンで複数のオブジェクトをミリ秒の間にセグメント化することが可能になり、結果は非常に正確です。一方、3Dの場合、インスタンスセグメンテーションという別の課題があり、2D画像セグメンテーションの性能に追いつくまでにはまだ時間がかかります。

3Dインスタンスセグメンテーションは、ロボット工学や拡張現実などの分野で重要な課題として浮上しています。3Dインスタンスセグメンテーションの目的は、3Dシーン内のオブジェクトインスタンスのマスクとそれに対応するカテゴリを予測することです。この分野で注目すべき進展がある一方、既存の手法は主にクローズドセットのパラダイムの下で操作され、トレーニングに使用されたデータセットに制約されたオブジェクトカテゴリの集合に密接に関連しています。

この制約には2つの根本的な問題があります。まず、クローズドボキャブラリーのアプローチでは、トレーニング中に遭遇したオブジェクトカテゴリを超えたシーンを理解するのが困難であり、新しいオブジェクトの認識や誤分類の可能性があります。また、これらの手法は自由形式のクエリを処理する能力に限界があり、特定のオブジェクトの特性や説明を理解して行動する必要があるシナリオでの効果的な処理が妨げられます。

これらの課題に対処するために、オープンボキャブラリーのアプローチが提案されています。これらのアプローチは自由形式のクエリを処理でき、トレーニングデータに存在しないオブジェクトカテゴリのゼロショット学習を可能にします。より柔軟で広範なアプローチを採用することで、オープンボキャブラリーの手法はシーン理解、ロボット工学、拡張現実、3Dビジュアルサーチなどのタスクでいくつかの利点を提供します。

オープンボキャブラリーの3Dインスタンスセグメンテーションを可能にすることで、複雑な3Dシーンの理解と操作に依存するアプリケーションの柔軟性と実用性を大幅に向上させることができます。それでは、有望な3DインスタンスセグメンテーションモデルであるOpenMask3Dについて見てみましょう。

OpenMask3Dはオブジェクトのインスタンスをセグメント化することができます。出典:https://arxiv.org/pdf/2306.13631.pdf

OpenMask3Dは、クローズドボキャブラリーのアプローチの制約を克服することを目指しています。事前に定義された概念を超えた推論を行いながら、3Dオブジェクトのインスタンスマスクを予測し、マスクフィーチャーレプリゼンテーションを計算するタスクに取り組みます。OpenMask3DはRGB-Dシーケンス上で動作し、対応する3D再構築ジオメトリを活用して目標を達成します。

それは、クラスに関係ないマスク提案ヘッドとマスクフィーチャーアグリゲーションモジュールからなる2段階のパイプラインを使用しています。OpenMask3Dは、インスタンスが明らかなフレームを識別し、各マスクの最良の画像からCLIPフィーチャーを抽出します。得られたフィーチャーレプリゼンテーションは複数のビューで集約され、各3Dインスタンスマスクに関連付けられます。このインスタンスベースのフィーチャー計算アプローチにより、OpenMask3Dは与えられたテキストクエリとの類似性に基づいてオブジェクトのインスタンスマスクを取得する能力を備え、クローズドボキャブラリーパラダイムの制約を超えたオープンボキャブラリーの3Dインスタンスセグメンテーションを実現します。

OpenMask3Dの概要。出典:https://arxiv.org/pdf/2306.13631.pdf

OpenMask3Dは、オブジェクトインスタンスごとにマスクフィーチャーを計算することで、任意のクエリとの類似性に基づいてオブジェクトインスタンスマスクを取得することができます。また、OpenMask3Dは、トレーニングまたはファインチューニングされたモデルよりも、新しいオブジェクトやロングテールのオブジェクトに関する情報を保持します。さらに、セマンティクス、ジオメトリ、アフォーダンス、材料特性などのオブジェクトの特性に関連する自由形式のクエリに基づいてオブジェクトインスタンスのセグメンテーションを可能にすることで、クローズドボキャブラリーパラダイムの制約を超えます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

SalesForce AIはCodeChainを導入:代表的なサブモジュールによる自己改訂の連鎖を通じたモジュラーコード生成のための革新的な人工知能フレームワーク

“`html 人工知能の研究における重要な目標の一つは、困難な問題に対処するための有用なコンピュータプログラムを提供で...

データサイエンス

「2023年の人工知能(AI)と機械学習に関連するサブレディットコミュニティ15選」

人工知能(AI)と機械学習の世界では、最新のトレンド、ブレイクスルー、議論について最新情報を得ることが重要です。インタ...

機械学習

「拡散を支配するための1つの拡散:マルチモーダル画像合成のための事前学習済み拡散モデルの調節」

画像生成AIモデルは、ここ数ヶ月でこの領域を席巻しています。おそらく、midjourney、DALL-E、ControlNet、またはStable dDif...

AIニュース

OpenAIを使用してカスタムチャットボットを開発する

はじめに チャットボットは自動化されたサポートと個別の体験を提供し、ビジネスが顧客とつながる方法を革新しました。人工知...

AIニュース

「生成AIを使って、あらゆる感情に対応するWhatsAppステッカーを作成する」

未来に向けて大きな進歩を遂げる中、WhatsAppの親会社であるMetaは、人工知能(AI)の世界に飛び込んでいます。最新の話題に...

機械学習

量産自動運転におけるBEVパーセプション

BEVの認識技術は、ここ数年で非常に進歩しました自動運転車の周りの環境を直接認識することができますBEVの認識技術はエンド...