「ロボットがより良い判断をするにはどうすればよいのか?MITとStanfordの研究者が、高度なロボットの推論と計画のためのDiffusion-CCSPを紹介」

MIT and Stanford researchers introduce Diffusion-CCSP for advanced robot inference and planning.

複雑な幾何学的および物理的制約(安定性や衝突の不足など)を満たすグラスプやオブジェクトの配置などの連続値を選択する能力は、ロボットの操作計画において重要です。従来の手法では、各種制約のサンプラーはそれぞれ個別に学習または最適化されてきましたが、複雑な問題に対しては、同時にさまざまな制約を満たす値を生成するための汎用ソルバーが必要です。

データの希少性により、すべての潜在的な要件を満たすために単一のモデルを構築またはトレーニングすることは困難です。そのため、汎用のロボットプランナーは、より大規模なジョブに対してソルバーを再利用して構築できる必要があります。

最近のMITおよびスタンフォード大学の研究では、制約グラフを使用して制約充足問題を学習された制約タイプの新しい組み合わせとして表現する統一フレームワークが提案されています。そして、拡散モデルに基づく制約ソルバーを使用して、制約を共同で満たす解を特定することができます。決定変数の例としては、掴む姿勢がありますが、配置ポーズやロボットの軌道も制約グラフのノードの例です。

新しい問題を解決するために、組成的拡散制約ソルバー(Diffusion-CCSP)は、異なる制約に対して拡散モデルのセットを学習します。次に、拡散プロセスを介して実行可能領域からさまざまなサンプルを生成することで、満足のいく割り当てを見つけるためにチューターを組み合わせます。具体的には、すべての拡散モデルは、個々の制約(たとえば、衝突を回避する位置)のための有効なソリューションを生成するようにトレーニングされます。推論時には、研究者は変数の任意の部分集合に依存して残りを解決することができます。拡散モデルは解のセットの生成モデルであるためです。各拡散モデルは、暗黙のエネルギー関数を最小化するようにトレーニングされており、グローバル制約の満足は、解のエネルギーの合計(個々の解のエネルギー関数の合計)の最小化と同等です。これらの2つの追加機能は、トレーニングおよび推論のカスタマイズに大きな余地を与えます。

別々または共同で、組成的な問題と解のペアは、成分拡散モデルのトレーニングに使用することができます。制約グラフにはトレーニング中に見られたより多くの変数が含まれていても、Diffusion-CCSPはパフォーマンス時間に既知の制約の新しい組み合わせに一般化することができます。

研究者は、Diffusion-CCSPを2次元の三角形の密なパッキング、定性的制約に従う2次元の形状配置、安定性制約に従う3次元の形状スタッキング、およびロボットを使用した3次元のアイテムパッキングなど、4つの困難なドメインでテストしました。その結果、この手法は推論速度と新しい制約の組み合わせへの一般化においてベースラインを上回ることが示されました。

チームは、この研究で調査したすべての制約が固定のアリティを持っていることを強調しています。制約と変数のアリティを考慮することは興味深いアプローチです。また、モデルが自然言語の指示を受け取ることができると有益であると考えています。さらに、タスクのラベルとソリューションを作成する現在の方法は制約があるため、特に「ダイニングテーブルを設定する」といった定性的な制限を扱う場合に制約があります。彼らは将来の発展で、より複雑な形状エンコーダと、オンラインの写真などの現実世界のデータから派生した制約を学習することで、現在と将来のアプリケーションの範囲を拡大することを提案しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

小さな言語モデル(SLM)とその応用について知るべきすべてのこと

大型言語モデル(LLM)は、GPT、PaLM、LLaMAなど、その驚異的な能力により、多くの関心を集めています。自然言語処理、生成、...

機械学習

ジナAIは、「jina-embeddings-v2」を紹介します 世界初の8kオープンソースのテキスト埋め込みモデル

Jina AIは、第2世代のテキスト埋め込みモデルであるjina-embeddings-v2の最新の進化を発表しました。この最先端のモデルは、...

AIニュース

2023年のスタートアップ向けの11のビジネスAIツール

AdCreative AI AdCreative.aiは究極の人工知能ソリューションで、広告やソーシャルメディアの活動を強化します。創造的な作業...

機械学習

「隠れマルコフモデルの力を解読する」

はじめに スマートフォンの音声認識や天気予報の複雑さについて考えたことはありますか?もしそうなら、Hidden Markov Models...

人工知能

パーソナライズされたAIの簡単な作成方法:GPTの適応に向けたノーコードガイド

OpenAIは、カスタムChatGPTを作成するためのコード不要のアプローチで個人のAIカスタマイズを革新しています

AI研究

デジタルルネッサンス:NVIDIAのNeuralangelo研究が3Dシーンを再構築

NVIDIA Researchによる新しいAIモデル、Neuralangeloは、ニューラルネットワークを使用して3D再構築を行い、2Dビデオクリップ...