コンセプトグラフの紹介:3Dシーンのためのオープンボキャブラリーグラフ構造表現

美容とファッションのエキスパートがおすすめする:ビビッドで活気に満ちたコンセプトグラフの紹介:3Dシーンを演出するためのオープンボキャブラリーグラフ構造表現

視覚シーンに関する情報をキャプチャして符号化することは、コンピュータビジョン、人工知能、またはグラフィックスのコンテキストで、シーン表現と呼ばれます。これには、オブジェクト、その位置、サイズ、色、関係など、シーンに存在する要素と属性の構造化または抽象化された表現の作成が含まれます。ロボットは環境をナビゲートする際に、ボード上のセンサからこれらの表現をオンラインで構築する必要があります。

これらの表現は、シーンのボリュームとロボットの動作時間の維持のためにスケーラブルで効率的でなければなりません。オープンライブラリはトレーニングセッションの事前定義されたデータに制限されるべきではなく、推論中に新しいオブジェクトや概念を処理できる必要があります。これには、密な幾何情報の収集やタスク計画のための抽象的な意味情報など、さまざまなタスクの範囲での計画を可能にする柔軟性が要求されます。

上記の要件を含めるために、トロント大学、MIT、モントリオール大学の研究者は、ロボットの知覚と計画のための3Dシーン表現手法であるConceptGraphsを提案しています。基礎モデルを使用して3Dシーン表現を取得する従来のプロセスでは、インターネットスケールのトレーニングデータが必要であり、3Dデータセットも比較可能なサイズである必要があります。

これらの表現は、冗長な意味特徴ベクトル上のすべてのポイントに基づいており、必要以上のメモリを消費し、大きなシーンにスケーラビリティを制限しています。これらの表現は密であり、マップ上で動的に更新することができないため、分解することが容易ではありません。チームによって開発された手法は、ノード表現を持つグラフ構造でシーンを効率的に記述できます。階層的な3Dシーン表現を構築できるリアルタイムシステムに構築することができます。

ConceptGraphsは、3Dマッピングシステムからの幾何学的データと2D基礎モデルからの意味的データを統合するオブジェクト中心のマッピングシステムです。したがって、画像と言語の基礎モデルによって生成された2D表現を3Dの世界に結びつけるこの試みは、言語によるオブジェクトの位置づけ、3Dの推論、およびナビゲーションなどのオープンな語彙タスクで印象的な結果を示します。

ConceptGraphsは、認識と計画のためのオープンな語彙の3Dシーングラフと構造化された意味抽象を効率的に構築することができます。研究チームはまた、ConceptGraphsを現実世界の車輪式および脚式ロボットプラットフォームに実装し、これらのロボットが抽象的な言語クエリのタスクプランニングを容易に実行できることを実証しました。

提供されたRGB-Dフレームを使用して、チームはクラス非依存のセグメンテーションモデルを実行して候補オブジェクトを取得します。幾何学的および意味的な類似度測定を使用して、複数のビューでそれらを関連付け、3Dシーングラフ内にノードをインスタンス化します。次に、各ノードにキャプションを付けるためにLVLMを使用し、隣接ノード間の関係を推論し、シーングラフ内にエッジを構築します。

研究者は、将来の研究ではモデルに時間的なダイナミクスを統合し、構造化されていないより複雑な環境でのパフォーマンスを評価する予定です。最後に、彼らのモデルは、密な暗黙的な表現の既存の景観の主要な制限に対処しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「ヌガーで科学文書処理を高める」

イントロダクション 自然言語処理および人工知能の分野では、科学的なPDFなどの非構造化データソースから価値ある情報を抽出...

機械学習

SiMa.aiが世界最強のAIチップをインドに持ち込む

アメリカのAIチップスタートアップ、SiMa.aiは、初代AIチップの量産を発表し、画期的な進展を遂げました。TSMC 16nmテクノロ...

人工知能

「ウェブ開発の未来:予測と可能性」

「ウェブ開発の未来を発見しましょう!AI、PWA、VRなどを探求しましょう可能性やウェブ開発者の役割についての洞察を得ましょ...

AI研究

MONAI 生成モデル:医療画像の進歩に向けたオープンソースプラットフォーム

最近の生成型人工知能のブレークスルーにより、特に医療画像処理の分野で重要な進展が見られています。しかし、これらの生成...

機械学習

マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツー...

AIニュース

「Azure OpenAIを使用した企業文書とのチャット」

大規模言語モデル(LLM)のようなChatGPTは、インターネット上の大量のテキストから訓練される際に、数十億のパラメータ内に...