コンセプトグラフの紹介:3Dシーンのためのオープンボキャブラリーグラフ構造表現

美容とファッションのエキスパートがおすすめする:ビビッドで活気に満ちたコンセプトグラフの紹介:3Dシーンを演出するためのオープンボキャブラリーグラフ構造表現

視覚シーンに関する情報をキャプチャして符号化することは、コンピュータビジョン、人工知能、またはグラフィックスのコンテキストで、シーン表現と呼ばれます。これには、オブジェクト、その位置、サイズ、色、関係など、シーンに存在する要素と属性の構造化または抽象化された表現の作成が含まれます。ロボットは環境をナビゲートする際に、ボード上のセンサからこれらの表現をオンラインで構築する必要があります。

これらの表現は、シーンのボリュームとロボットの動作時間の維持のためにスケーラブルで効率的でなければなりません。オープンライブラリはトレーニングセッションの事前定義されたデータに制限されるべきではなく、推論中に新しいオブジェクトや概念を処理できる必要があります。これには、密な幾何情報の収集やタスク計画のための抽象的な意味情報など、さまざまなタスクの範囲での計画を可能にする柔軟性が要求されます。

上記の要件を含めるために、トロント大学、MIT、モントリオール大学の研究者は、ロボットの知覚と計画のための3Dシーン表現手法であるConceptGraphsを提案しています。基礎モデルを使用して3Dシーン表現を取得する従来のプロセスでは、インターネットスケールのトレーニングデータが必要であり、3Dデータセットも比較可能なサイズである必要があります。

これらの表現は、冗長な意味特徴ベクトル上のすべてのポイントに基づいており、必要以上のメモリを消費し、大きなシーンにスケーラビリティを制限しています。これらの表現は密であり、マップ上で動的に更新することができないため、分解することが容易ではありません。チームによって開発された手法は、ノード表現を持つグラフ構造でシーンを効率的に記述できます。階層的な3Dシーン表現を構築できるリアルタイムシステムに構築することができます。

ConceptGraphsは、3Dマッピングシステムからの幾何学的データと2D基礎モデルからの意味的データを統合するオブジェクト中心のマッピングシステムです。したがって、画像と言語の基礎モデルによって生成された2D表現を3Dの世界に結びつけるこの試みは、言語によるオブジェクトの位置づけ、3Dの推論、およびナビゲーションなどのオープンな語彙タスクで印象的な結果を示します。

ConceptGraphsは、認識と計画のためのオープンな語彙の3Dシーングラフと構造化された意味抽象を効率的に構築することができます。研究チームはまた、ConceptGraphsを現実世界の車輪式および脚式ロボットプラットフォームに実装し、これらのロボットが抽象的な言語クエリのタスクプランニングを容易に実行できることを実証しました。

提供されたRGB-Dフレームを使用して、チームはクラス非依存のセグメンテーションモデルを実行して候補オブジェクトを取得します。幾何学的および意味的な類似度測定を使用して、複数のビューでそれらを関連付け、3Dシーングラフ内にノードをインスタンス化します。次に、各ノードにキャプションを付けるためにLVLMを使用し、隣接ノード間の関係を推論し、シーングラフ内にエッジを構築します。

研究者は、将来の研究ではモデルに時間的なダイナミクスを統合し、構造化されていないより複雑な環境でのパフォーマンスを評価する予定です。最後に、彼らのモデルは、密な暗黙的な表現の既存の景観の主要な制限に対処しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

新しいAIモデル、たった30BパラメーターでGPT-3を凌駕する

世界的に有名なオープンソース言語モデル(LLMs)プロバイダーであるMosaicMLは、最新世代のNVIDIA H100アクセラレータを搭載...

人工知能

PaLM 2を紹介します

2023年のGoogle I/Oで、GoogleはPaLM 2という新しい言語モデルを発表しましたこのモデルは、多言語、推論、およびコーディン...

機械学習

「生成AIの10年からの教訓」

「生成AIの未来を理解するためには、それがどこから来たのか、そして技術とともに進化する課題と機会を見ることが役立ちます」

機械学習

「LoRAアダプターにダイブ」

「大規模言語モデル(LLM)は世界中で大流行しています過去の1年間では、彼らができることにおいて莫大な進歩を目撃してきま...

機械学習

フィールドからフォークへ:スタートアップが食品業界にAIのスモーガスボードを提供

それは魔法のように機能しました。データセンターで実行されているコンピュータービジョンアルゴリズムが、インドの遠い小麦...

機械学習

「LeNetのマスタリング:アーキテクチャの洞察と実践的な実装」

はじめに LeNet-5は、1990年代にYann LeCunと彼のチームによって開発された画期的な畳み込みニューラルネットワーク(CNN)で...