「ロボットがより良い判断をするにはどうすればよいのか?MITとStanfordの研究者が、高度なロボットの推論と計画のためのDiffusion-CCSPを紹介」

MIT and Stanford researchers introduce Diffusion-CCSP for advanced robot inference and planning.

複雑な幾何学的および物理的制約(安定性や衝突の不足など)を満たすグラスプやオブジェクトの配置などの連続値を選択する能力は、ロボットの操作計画において重要です。従来の手法では、各種制約のサンプラーはそれぞれ個別に学習または最適化されてきましたが、複雑な問題に対しては、同時にさまざまな制約を満たす値を生成するための汎用ソルバーが必要です。

データの希少性により、すべての潜在的な要件を満たすために単一のモデルを構築またはトレーニングすることは困難です。そのため、汎用のロボットプランナーは、より大規模なジョブに対してソルバーを再利用して構築できる必要があります。

最近のMITおよびスタンフォード大学の研究では、制約グラフを使用して制約充足問題を学習された制約タイプの新しい組み合わせとして表現する統一フレームワークが提案されています。そして、拡散モデルに基づく制約ソルバーを使用して、制約を共同で満たす解を特定することができます。決定変数の例としては、掴む姿勢がありますが、配置ポーズやロボットの軌道も制約グラフのノードの例です。

新しい問題を解決するために、組成的拡散制約ソルバー(Diffusion-CCSP)は、異なる制約に対して拡散モデルのセットを学習します。次に、拡散プロセスを介して実行可能領域からさまざまなサンプルを生成することで、満足のいく割り当てを見つけるためにチューターを組み合わせます。具体的には、すべての拡散モデルは、個々の制約(たとえば、衝突を回避する位置)のための有効なソリューションを生成するようにトレーニングされます。推論時には、研究者は変数の任意の部分集合に依存して残りを解決することができます。拡散モデルは解のセットの生成モデルであるためです。各拡散モデルは、暗黙のエネルギー関数を最小化するようにトレーニングされており、グローバル制約の満足は、解のエネルギーの合計(個々の解のエネルギー関数の合計)の最小化と同等です。これらの2つの追加機能は、トレーニングおよび推論のカスタマイズに大きな余地を与えます。

別々または共同で、組成的な問題と解のペアは、成分拡散モデルのトレーニングに使用することができます。制約グラフにはトレーニング中に見られたより多くの変数が含まれていても、Diffusion-CCSPはパフォーマンス時間に既知の制約の新しい組み合わせに一般化することができます。

研究者は、Diffusion-CCSPを2次元の三角形の密なパッキング、定性的制約に従う2次元の形状配置、安定性制約に従う3次元の形状スタッキング、およびロボットを使用した3次元のアイテムパッキングなど、4つの困難なドメインでテストしました。その結果、この手法は推論速度と新しい制約の組み合わせへの一般化においてベースラインを上回ることが示されました。

チームは、この研究で調査したすべての制約が固定のアリティを持っていることを強調しています。制約と変数のアリティを考慮することは興味深いアプローチです。また、モデルが自然言語の指示を受け取ることができると有益であると考えています。さらに、タスクのラベルとソリューションを作成する現在の方法は制約があるため、特に「ダイニングテーブルを設定する」といった定性的な制限を扱う場合に制約があります。彼らは将来の発展で、より複雑な形状エンコーダと、オンラインの写真などの現実世界のデータから派生した制約を学習することで、現在と将来のアプリケーションの範囲を拡大することを提案しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Gen-AI:楽しさ、恐怖、そして未来!」

この記事では、AIがイメージ生成に与える影響を探究し、開発者や規制などに対してそれが何を意味するのかを考察します

機械学習

「すべてのビジネスが生成的AIを受け入れるのを支援するための新しいツールを発表します」と発表します

スタートアップから大企業まで、あらゆる規模の組織がジェネレーティブAIに取り組み始めています彼らはジェネレーティブAIを...

機械学習

大規模に基礎モデルをトレーニングするためのAmazon SageMaker HyperPodの紹介

基盤モデル(FMs)の構築には、数十億から数千億のパラメータを持つモデルを大量のデータで訓練するために、大規模なクラスタ...

機械学習

「Flash-AttentionとFlash-Attention-2の理解:言語モデルの文脈長を拡大するための道」

大規模言語モデル(LLM)の文脈を拡大することは、ユースケースの宇宙を拡大するための最大の課題の一つです最近、Anthropic...

AIニュース

「Appleの次の動き:『Apple GPT』の開発と最先端の生成型AIツールの開発によるOpenAIへの挑戦」

Appleは驚くべき動きで、AIを搭載したチャットボット「Apple GPT」として仮称されるものを開発していると報じられています。...

AIニュース

「人工知能(AI)のトップコンテンツ検出ツール」

人工知能(AI)および自然言語処理(NLP)の技術は、AIコンテンツの検出プロセスで使用され、テキストのコンテンツを自動的に...