スタンフォードの研究者たちは、「EquivAct」というロボット学習における画期的な提案を行いましたこの提案は、異なる規模や方向でのタスクを一般化するためのものです

「EquivAct」というロボット学習における画期的な提案- スタンフォードの研究者たちによるタスク一般化の新たなアプローチ

人間は、標準的なオブジェクトでタスクを完了する方法のわずかな例だけを与えられた場合でも、対象物の視覚的または物理的属性が異なる変形タスクの変種を推測して学習することができます。学習されたポリシーをさまざまなオブジェクトのスケール、方向、視覚的見た目に対応できるようにするためには、既存のロボット学習の研究には大量のデータ拡張が必要です。しかしながら、これらの改善にもかかわらず、未知の変化への一般化は保証されていません。

スタンフォード大学の新しい論文では、1つのソース操作シナリオからの少数のサンプル軌跡を入力とし、未知のオブジェクトの視覚的見た目、サイズ、ポーズにも一般化する可能性のある視覚運動方針のゼロショット学習の課題に取り組んでいます。特に、服や箱などの可変および関節性のあるオブジェクトと、ピックアンドプレースのような剛体のオブジェクトとの取り扱い方を学ぶことが重要でした。学習されたポリシーが異なるオブジェクトの配置、方向、スケールに対して堅牢であることを保証するために、視覚的なオブジェクト表現とポリシーアーキテクチャに等速変換を組み込むことが提案されました。

彼らはEquivActという新しい視覚運動方針学習手法を提案しており、1つのソース操作シナリオでのデモから3Dロボット操作タスクの閉ループポリシーを学習し、ゼロショットで未知のシナリオに一般化することができます。学習されたポリシーは、ロボットのエンドエフェクタの姿勢と環境の部分的なポイントクラウドを入力とし、エンドエフェクタの速度やグリッパーコマンドなどのロボットのアクションを出力とします。ほとんどの従来の研究とは異なり、研究者たちはニューラルネットワークにはSIM(3)に等速変換するネットワークアーキテクチャを使用しました。つまり、出力のエンドエフェクタの速度は、入力のポイントクラウドとエンドエフェクタの位置が変換および回転される際に適応するということです。彼らのポリシーアーキテクチャが等速変換であるため、小規模の台上活動のデモから学習し、その後、異なる視覚的および物理的見た目を持つデモ対象オブジェクトの大きな変動を含むモバイル操作タスクにゼロショットで一般化することができます。

この手法は、表現とポリシーの2つのパートに分かれています。エージェントの表現を訓練するために、チームはまず、ターゲットタスクのオブジェクトと同じカメラと設定を使用してキャプチャされた一連の合成ポイントクラウドを提供しますが、異なるランダムの非一様スケールでキャプチャされます。提案されたアーキテクチャが一様なスケーリングに対応している場合でも、このような非一様スケーリングのために訓練データを追加しました。シミュレーションデータにはロボットのアクティビティを示す必要はなく、実際のタスクをデモンストレーションする必要もありません。彼らは、シーンポイントクラウドからグローバルとローカルの特徴を抽出するために、シミュレーションデータを使用してSIM(3)に等速変換するエンコーダ・デコーダアーキテクチャを訓練しました。訓練中には、ペアのポイントクラウド入力に対してコントラスティブラーニングの損失を使用し、類似の位置にあるオブジェクトの関連するオブジェクトセクションのためのローカル特徴を組み合わせました。ポリシー学習フェーズでは、以前に検証されたタスクトラジェクトリのサンプルへのアクセスが制限されていると仮定されます。

研究者たちは、データを使用して閉ループポリシーを訓練し、シーンの部分的なポイントクラウドを入力とし、以前に学習したエンコーダを使用してポイントクラウドからグローバルとローカルの特徴を抽出し、それらの特徴をSIM(3)に等速変換するアクション予測ネットワークに供給してエンドエフェクタの動きを予測します。従来の剛体物の操作タスクだけでなく、この提案手法は、コンフォータの折りたたみ、容器のカバー、ボックスの封印といったより複雑なタスクで評価されました。

チームは、各活動ごとに人間がテーブル上のオブジェクトを操作する人間の例を多く提示しています。手法をデモンストレーションした後、ロボットはより大規模なスケールで同じ問題を解決する必要があるモバイル操作プラットフォームで評価されました。その結果、この手法は、ソース操作のデモから閉ループのロボット操作ポリシーを学習し、目標のジョブを一回の実行で実行するために細かな調整は必要ないことがわかりました。また、この手法はオブジェクトのポーズやスケールの範囲外への一般化に対して重要な拡張を必要とせず、等速変換を利用していない手法よりも効率的であることが示されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「NVIDIAスタジオ」で美しく写実的なフードレンダリングを作り出す3Dアーティストが今週登場しました

エディターの注釈:この投稿は、私たちの週間In the NVIDIA Studioシリーズの一部であり、注目のアーティストを称え、クリエ...

機械学習

「分かれれば倒れ、一緒に立つ:CoTrackerは、ビデオ内の複数のポイントを共同で追跡するAIアプローチです」

I had trouble accessing your link so I’m going to try to continue without it. 近年、AIの領域で画像生成と大規模...

データサイエンス

特定のタスクに最適に適合するニューラルネットワークを設計するためのメソッド

適切なビルディングブロックを使用することで、機械学習モデルは詐欺検知やスパムフィルタリングなどのタスクをより正確に実...

データサイエンス

「メーカーに会う ロボット学生がNVIDIA Jetsonを搭載した自律型車椅子を発表する」

AIの助けを借りて、ロボット、トラクターやベビーカー、さらにはスケートパークさえも自律化しています。Kabilan KBという開...

データサイエンス

「HuggingFaceを使用したLlama 2 7B Fine-TunedモデルのGPTQ量子化」

前の記事では、Meta AIが最近リリースした新しいLlama 2モデルを使用して、わずか数行のコードでPythonコードジェネレータを...

AI研究

『Google AI Researchが効率的な連成振動子のシミュレーションに革新的な量子アルゴリズムを導入』

古典力学は、物体の運動、それに作用する力、およびその活動に関連付けられたエネルギーについて扱います。量子力学は、物質...