スタンフォードの研究者たちは、「EquivAct」というロボット学習における画期的な提案を行いましたこの提案は、異なる規模や方向でのタスクを一般化するためのものです

「EquivAct」というロボット学習における画期的な提案- スタンフォードの研究者たちによるタスク一般化の新たなアプローチ

人間は、標準的なオブジェクトでタスクを完了する方法のわずかな例だけを与えられた場合でも、対象物の視覚的または物理的属性が異なる変形タスクの変種を推測して学習することができます。学習されたポリシーをさまざまなオブジェクトのスケール、方向、視覚的見た目に対応できるようにするためには、既存のロボット学習の研究には大量のデータ拡張が必要です。しかしながら、これらの改善にもかかわらず、未知の変化への一般化は保証されていません。

スタンフォード大学の新しい論文では、1つのソース操作シナリオからの少数のサンプル軌跡を入力とし、未知のオブジェクトの視覚的見た目、サイズ、ポーズにも一般化する可能性のある視覚運動方針のゼロショット学習の課題に取り組んでいます。特に、服や箱などの可変および関節性のあるオブジェクトと、ピックアンドプレースのような剛体のオブジェクトとの取り扱い方を学ぶことが重要でした。学習されたポリシーが異なるオブジェクトの配置、方向、スケールに対して堅牢であることを保証するために、視覚的なオブジェクト表現とポリシーアーキテクチャに等速変換を組み込むことが提案されました。

彼らはEquivActという新しい視覚運動方針学習手法を提案しており、1つのソース操作シナリオでのデモから3Dロボット操作タスクの閉ループポリシーを学習し、ゼロショットで未知のシナリオに一般化することができます。学習されたポリシーは、ロボットのエンドエフェクタの姿勢と環境の部分的なポイントクラウドを入力とし、エンドエフェクタの速度やグリッパーコマンドなどのロボットのアクションを出力とします。ほとんどの従来の研究とは異なり、研究者たちはニューラルネットワークにはSIM(3)に等速変換するネットワークアーキテクチャを使用しました。つまり、出力のエンドエフェクタの速度は、入力のポイントクラウドとエンドエフェクタの位置が変換および回転される際に適応するということです。彼らのポリシーアーキテクチャが等速変換であるため、小規模の台上活動のデモから学習し、その後、異なる視覚的および物理的見た目を持つデモ対象オブジェクトの大きな変動を含むモバイル操作タスクにゼロショットで一般化することができます。

この手法は、表現とポリシーの2つのパートに分かれています。エージェントの表現を訓練するために、チームはまず、ターゲットタスクのオブジェクトと同じカメラと設定を使用してキャプチャされた一連の合成ポイントクラウドを提供しますが、異なるランダムの非一様スケールでキャプチャされます。提案されたアーキテクチャが一様なスケーリングに対応している場合でも、このような非一様スケーリングのために訓練データを追加しました。シミュレーションデータにはロボットのアクティビティを示す必要はなく、実際のタスクをデモンストレーションする必要もありません。彼らは、シーンポイントクラウドからグローバルとローカルの特徴を抽出するために、シミュレーションデータを使用してSIM(3)に等速変換するエンコーダ・デコーダアーキテクチャを訓練しました。訓練中には、ペアのポイントクラウド入力に対してコントラスティブラーニングの損失を使用し、類似の位置にあるオブジェクトの関連するオブジェクトセクションのためのローカル特徴を組み合わせました。ポリシー学習フェーズでは、以前に検証されたタスクトラジェクトリのサンプルへのアクセスが制限されていると仮定されます。

研究者たちは、データを使用して閉ループポリシーを訓練し、シーンの部分的なポイントクラウドを入力とし、以前に学習したエンコーダを使用してポイントクラウドからグローバルとローカルの特徴を抽出し、それらの特徴をSIM(3)に等速変換するアクション予測ネットワークに供給してエンドエフェクタの動きを予測します。従来の剛体物の操作タスクだけでなく、この提案手法は、コンフォータの折りたたみ、容器のカバー、ボックスの封印といったより複雑なタスクで評価されました。

チームは、各活動ごとに人間がテーブル上のオブジェクトを操作する人間の例を多く提示しています。手法をデモンストレーションした後、ロボットはより大規模なスケールで同じ問題を解決する必要があるモバイル操作プラットフォームで評価されました。その結果、この手法は、ソース操作のデモから閉ループのロボット操作ポリシーを学習し、目標のジョブを一回の実行で実行するために細かな調整は必要ないことがわかりました。また、この手法はオブジェクトのポーズやスケールの範囲外への一般化に対して重要な拡張を必要とせず、等速変換を利用していない手法よりも効率的であることが示されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

このAI研究では、LSS Transformerを発表しましたこれは、Transformerにおける効率的な長いシーケンスの学習を革新的なAIアプローチで実現します

新しいAI研究では、Long Short-Sequence Transformer (LSS Transformer)という効率的な分散学習手法が紹介されました。この手...

データサイエンス

Salesforceは、データ駆動型のAIとCRMを通じて生産性と顧客の信頼性を高める、新しいEinstein 1プラットフォームを発表しました

顧客データは混乱しています。組織は通常、1,061の独自のアプリケーションを使用していますが、そのうちの29%しか本当に統合...

機械学習

「AIと産業のデジタル化の時代に、開かれたUSDに開発者が注目」 Note OpenUSD refers to an open-source software library called USD (Universal Scene Description), which is commonly used in computer graphics and animation.

スマートファクトリーから次世代の鉄道システムまで、世界中の開発者と企業は、あらゆるスケールで産業のデジタル化の機会を...

機械学習

「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」

DGIST電気工学およびコンピュータサイエンス学科の黄宰潤教授率いるチームは、ホログラムに基づいたリアルタイムでの焦点超音...