RPDiffと出会ってください:3Dシーン内の6自由度オブジェクト再配置のための拡散モデル

RPDiff 3Dシーン内の6自由度オブジェクト再配置のための拡散モデル

日常のタスクを実行するためのロボットの設計と構築は、コンピュータサイエンスエンジニアリングの最も刺激的で挑戦的な分野の一つです。MIT、NVIDIA、およびImprobable AI Labの研究者チームは、Frank PandaロボットアームをRobotiq 2F140並行ジョーグリッパーでプログラムし、シーン内のオブジェクトの配置関係を達成するためにオブジェクトを再配置しました。現実世界の与えられたシーンには、多くの幾何学的に類似した再配置の解が存在することは珍しくありません。研究者は反復的な姿勢デノイジングトレーニング手順を使用して解を構築しました。

現実のシーンでの課題は、幾何学的な外観とレイアウトの組み合わせ変動を解決することです。これにより、本の半分が詰まった棚に本を置く、マグスタンドにマグを掛けるなど、オブジェクト-シーンの相互作用のための多くの場所と幾何学的特徴が提供されます。オブジェクトを配置するためのシーンの場所が多くあり、これらの複数の可能性はプログラミング、学習、展開に困難をもたらします。システムは、可能な再配置の基盤全体にわたる複数のモーダル出力を予測する必要があります。

特定の最終的なオブジェクトシーンのポイントクラウドにおいて、初期のオブジェクト構成は、ポイントクラウドの姿勢デノイジングによって予測される再配置からのずれと考えることができます。最終的なオブジェクト-シーンポイントクラウドからノイズのあるポイントクラウドを生成し、ニューラルネットワークを使用してモデルをトレーニングすることで、初期の構成にランダムに転送します。多様性は、大量のデータに対しては効果がありません。モデルはデータに適合しない平均的な解を学習しようとします。研究チームは、この困難を克服するために、複数ステップのノイズ処理と拡散モデルを実装しました。モデルは拡散モデルとしてトレーニングされ、反復的なデノイジングを実行します。

反復的なデノイジング後に新しいシーンレイアウトへの汎化が必要です。研究チームは、オブジェクトの近くの領域をクロップすることで、シーンポイントクラウドをローカルにエンコードすることを提案しています。これにより、モデルは非ローカルの遠隔の妨害要素を無視し、近隣のデータセットに集中することができます。ランダムな推測からの推論手続きは、良い解から遠く離れた解につながる可能性があります。研究者は、最初により大きなクロップサイズを考慮し、複数の反復によってそれを減らすことで、よりローカルなシーンコンテキストを得ることで、この問題を解決しました。

研究チームは、オブジェクトとシーンのポイントクラウドに基づいた6自由度の関係的な再配置を実行するために、Relational Pose Diffusion(RPDiff)を実装しました。これは、多様性を持つさまざまな形状、姿勢、およびシーンレイアウトに対して一般化します。彼らが追求した動機は、6自由度の姿勢を反復的にデノイズし、シーンポイントクラウドとの所望の幾何学的関係を満たすまでオブジェクトの姿勢をデノイズすることです。

研究チームは、RPDiffを使用してリアルワールドのオブジェクトとシーン上でピックアンドプレイスを行うために関係的な再配置を実行します。彼らのモデルは、本の一部が詰まった本棚に本を置く、オープンシェルフに缶を積み重ねる、フックの多いラックにマグを掛けるなどのタスクに成功しています。彼らのモデルは、多様なモーダルデータセットの適合を乗り越えることができますが、シミュレーションでのスクリプト化されたポリシーからのデモンストレーションデータのみを使用しているため、事前トレーニングされたデータの表現で作業する際には制約があります。彼らの研究は、Neural Shape Mating(NSM)を実装することにより、知覚からのオブジェクトの再配置に関連する他のチームの研究と関連しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

データサイエンティストが生産性を10倍にするための5つのツール

AIツールは、単調で繰り返されるタスクを自動化することで、データサイエンティストの生産性を最大限に引き上げるのに役立ち...

人工知能

AIにおけるブロックチェーンの包括的なレビュー

AIとブロックチェーンは、近年最も画期的な技術革新として浮上しています人工知能(AI):機械やコンピュータが人間の思考や...

人工知能

「ChatGPTを利用する5人のミリオネア」

「以下は、地球上で最も成功した人々がChatGPTをどのように活用しているかの方法です」

機械学習

大規模言語モデルの探索 -Part 1

この記事は主に自己学習のために書かれていますそのため、広範囲かつ深い内容です興味のあるセクションをスキップしたり、自...

機械学習

「プリズマーに会いましょう:専門家のアンサンブルを持つオープンソースのビジョン-言語モデル」

最近の多くのビジョン言語モデルは、非常に注目すべき多様な生成能力を示しています。しかし、通常、それらは膨大なモデルと...

データサイエンス

LinkedInのフィード進化:より詳細かつパワフルな機械学習、そして依然として人間も重要

LinkedInのフィードとインフラの最新更新について読むと、人間を中心に据えた原則を技術用語と実装に繋げる方法が解説されて...