RPDiffと出会ってください:3Dシーン内の6自由度オブジェクト再配置のための拡散モデル

RPDiff 3Dシーン内の6自由度オブジェクト再配置のための拡散モデル

日常のタスクを実行するためのロボットの設計と構築は、コンピュータサイエンスエンジニアリングの最も刺激的で挑戦的な分野の一つです。MIT、NVIDIA、およびImprobable AI Labの研究者チームは、Frank PandaロボットアームをRobotiq 2F140並行ジョーグリッパーでプログラムし、シーン内のオブジェクトの配置関係を達成するためにオブジェクトを再配置しました。現実世界の与えられたシーンには、多くの幾何学的に類似した再配置の解が存在することは珍しくありません。研究者は反復的な姿勢デノイジングトレーニング手順を使用して解を構築しました。

現実のシーンでの課題は、幾何学的な外観とレイアウトの組み合わせ変動を解決することです。これにより、本の半分が詰まった棚に本を置く、マグスタンドにマグを掛けるなど、オブジェクト-シーンの相互作用のための多くの場所と幾何学的特徴が提供されます。オブジェクトを配置するためのシーンの場所が多くあり、これらの複数の可能性はプログラミング、学習、展開に困難をもたらします。システムは、可能な再配置の基盤全体にわたる複数のモーダル出力を予測する必要があります。

特定の最終的なオブジェクトシーンのポイントクラウドにおいて、初期のオブジェクト構成は、ポイントクラウドの姿勢デノイジングによって予測される再配置からのずれと考えることができます。最終的なオブジェクト-シーンポイントクラウドからノイズのあるポイントクラウドを生成し、ニューラルネットワークを使用してモデルをトレーニングすることで、初期の構成にランダムに転送します。多様性は、大量のデータに対しては効果がありません。モデルはデータに適合しない平均的な解を学習しようとします。研究チームは、この困難を克服するために、複数ステップのノイズ処理と拡散モデルを実装しました。モデルは拡散モデルとしてトレーニングされ、反復的なデノイジングを実行します。

反復的なデノイジング後に新しいシーンレイアウトへの汎化が必要です。研究チームは、オブジェクトの近くの領域をクロップすることで、シーンポイントクラウドをローカルにエンコードすることを提案しています。これにより、モデルは非ローカルの遠隔の妨害要素を無視し、近隣のデータセットに集中することができます。ランダムな推測からの推論手続きは、良い解から遠く離れた解につながる可能性があります。研究者は、最初により大きなクロップサイズを考慮し、複数の反復によってそれを減らすことで、よりローカルなシーンコンテキストを得ることで、この問題を解決しました。

研究チームは、オブジェクトとシーンのポイントクラウドに基づいた6自由度の関係的な再配置を実行するために、Relational Pose Diffusion(RPDiff)を実装しました。これは、多様性を持つさまざまな形状、姿勢、およびシーンレイアウトに対して一般化します。彼らが追求した動機は、6自由度の姿勢を反復的にデノイズし、シーンポイントクラウドとの所望の幾何学的関係を満たすまでオブジェクトの姿勢をデノイズすることです。

研究チームは、RPDiffを使用してリアルワールドのオブジェクトとシーン上でピックアンドプレイスを行うために関係的な再配置を実行します。彼らのモデルは、本の一部が詰まった本棚に本を置く、オープンシェルフに缶を積み重ねる、フックの多いラックにマグを掛けるなどのタスクに成功しています。彼らのモデルは、多様なモーダルデータセットの適合を乗り越えることができますが、シミュレーションでのスクリプト化されたポリシーからのデモンストレーションデータのみを使用しているため、事前トレーニングされたデータの表現で作業する際には制約があります。彼らの研究は、Neural Shape Mating(NSM)を実装することにより、知覚からのオブジェクトの再配置に関連する他のチームの研究と関連しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「ジェンAI愛好家が読むべき5冊の本」

イントロダクション 技術がますます進化する中、人工知能(AI)の領域は拡大するだけでなく、ジェネラティブAIという様々なサ...

機械学習

詳細に説明されたLlama 2:Metaの大型言語モデル!

MetaのLlama 2についてもっと知りたいですか?ここには基礎から高度な仕様まで、すべてを網羅した初心者向けガイドがあります

人工知能

「AIが航空会社のコントレイルによる気候への影響を軽減するのに役立っている方法」

「私たちはAIを使用して、航空会社がコントレイルの発生が少ないルートを選択するのを支援し、飛行の環境への影響を最小限に...

データサイエンス

「LLMモニタリングと観測性 - 責任あるAIのための手法とアプローチの概要」

対象読者:実践者が利用可能なアプローチと実装の始め方を学びたい方、そして構築する際に可能性を理解したいリーダーたち…

人工知能

「Img2Prompt AI モデルを使用して画像をプロンプトに変換する方法:ステップバイステップガイド」

「シンプルなAPI呼び出しと少しのNode.jsで画像からプロンプトを収集します」

機械学習

「AI/MLツールとフレームワーク:包括的な比較ガイド」

この記事では、主要なAI/MLツールやフレームワークの簡潔な比較を提供し、特定のAI/MLプロジェクトに適した技術の選択を支援...