RPDiffと出会ってください:3Dシーン内の6自由度オブジェクト再配置のための拡散モデル

RPDiff 3Dシーン内の6自由度オブジェクト再配置のための拡散モデル

日常のタスクを実行するためのロボットの設計と構築は、コンピュータサイエンスエンジニアリングの最も刺激的で挑戦的な分野の一つです。MIT、NVIDIA、およびImprobable AI Labの研究者チームは、Frank PandaロボットアームをRobotiq 2F140並行ジョーグリッパーでプログラムし、シーン内のオブジェクトの配置関係を達成するためにオブジェクトを再配置しました。現実世界の与えられたシーンには、多くの幾何学的に類似した再配置の解が存在することは珍しくありません。研究者は反復的な姿勢デノイジングトレーニング手順を使用して解を構築しました。

現実のシーンでの課題は、幾何学的な外観とレイアウトの組み合わせ変動を解決することです。これにより、本の半分が詰まった棚に本を置く、マグスタンドにマグを掛けるなど、オブジェクト-シーンの相互作用のための多くの場所と幾何学的特徴が提供されます。オブジェクトを配置するためのシーンの場所が多くあり、これらの複数の可能性はプログラミング、学習、展開に困難をもたらします。システムは、可能な再配置の基盤全体にわたる複数のモーダル出力を予測する必要があります。

特定の最終的なオブジェクトシーンのポイントクラウドにおいて、初期のオブジェクト構成は、ポイントクラウドの姿勢デノイジングによって予測される再配置からのずれと考えることができます。最終的なオブジェクト-シーンポイントクラウドからノイズのあるポイントクラウドを生成し、ニューラルネットワークを使用してモデルをトレーニングすることで、初期の構成にランダムに転送します。多様性は、大量のデータに対しては効果がありません。モデルはデータに適合しない平均的な解を学習しようとします。研究チームは、この困難を克服するために、複数ステップのノイズ処理と拡散モデルを実装しました。モデルは拡散モデルとしてトレーニングされ、反復的なデノイジングを実行します。

反復的なデノイジング後に新しいシーンレイアウトへの汎化が必要です。研究チームは、オブジェクトの近くの領域をクロップすることで、シーンポイントクラウドをローカルにエンコードすることを提案しています。これにより、モデルは非ローカルの遠隔の妨害要素を無視し、近隣のデータセットに集中することができます。ランダムな推測からの推論手続きは、良い解から遠く離れた解につながる可能性があります。研究者は、最初により大きなクロップサイズを考慮し、複数の反復によってそれを減らすことで、よりローカルなシーンコンテキストを得ることで、この問題を解決しました。

研究チームは、オブジェクトとシーンのポイントクラウドに基づいた6自由度の関係的な再配置を実行するために、Relational Pose Diffusion(RPDiff)を実装しました。これは、多様性を持つさまざまな形状、姿勢、およびシーンレイアウトに対して一般化します。彼らが追求した動機は、6自由度の姿勢を反復的にデノイズし、シーンポイントクラウドとの所望の幾何学的関係を満たすまでオブジェクトの姿勢をデノイズすることです。

研究チームは、RPDiffを使用してリアルワールドのオブジェクトとシーン上でピックアンドプレイスを行うために関係的な再配置を実行します。彼らのモデルは、本の一部が詰まった本棚に本を置く、オープンシェルフに缶を積み重ねる、フックの多いラックにマグを掛けるなどのタスクに成功しています。彼らのモデルは、多様なモーダルデータセットの適合を乗り越えることができますが、シミュレーションでのスクリプト化されたポリシーからのデモンストレーションデータのみを使用しているため、事前トレーニングされたデータの表現で作業する際には制約があります。彼らの研究は、Neural Shape Mating(NSM)を実装することにより、知覚からのオブジェクトの再配置に関連する他のチームの研究と関連しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

レコメンダーシステムにおけるPrecision@NとRecall@Nの解説

Accuracy Metrics(正解率指標)は、機械学習の全体的なパフォーマンスを評価するための有用な指標であり、データセット内の...

データサイエンス

AIにおける継続的学習の現状について

なぜchatGPTは2021年までの訓練しかされていないのですか?この記事では、深層学習における継続的な学習の現状を解説し、特に...

データサイエンス

「生成AIにおけるバイアスの軽減」

イントロダクション 現代の世界では、生成型AIは創造性の限界を押し広げており、機械が人間のようなコンテンツを作り出すこと...

AIニュース

検索で創発的AIにインスピレーションを受ける新たな方法

「私たちは、アイデアを具現化するイメージを作るための新しい方法や、出発点となる文章の下書きのようなものを作成するため...

機械学習

一緒にAIを学ぶ - Towards AI コミュニティニュースレター第4号

おはようございます、AI愛好者の皆さん! 今号では、Activeloopと共同で取り組んでいる大規模な言語モデル(LLM)のパフォー...

機械学習

オンラインで機械学習を学ぶ方法

導入 機械学習は現在高度に発展している技術の分野です。この技術により、コンピュータシステムは技術的なプログラミングなし...