スタンフォードの研究者たちは、「EquivAct」というロボット学習における画期的な提案を行いましたこの提案は、異なる規模や方向でのタスクを一般化するためのものです
「EquivAct」というロボット学習における画期的な提案- スタンフォードの研究者たちによるタスク一般化の新たなアプローチ
人間は、標準的なオブジェクトでタスクを完了する方法のわずかな例だけを与えられた場合でも、対象物の視覚的または物理的属性が異なる変形タスクの変種を推測して学習することができます。学習されたポリシーをさまざまなオブジェクトのスケール、方向、視覚的見た目に対応できるようにするためには、既存のロボット学習の研究には大量のデータ拡張が必要です。しかしながら、これらの改善にもかかわらず、未知の変化への一般化は保証されていません。
スタンフォード大学の新しい論文では、1つのソース操作シナリオからの少数のサンプル軌跡を入力とし、未知のオブジェクトの視覚的見た目、サイズ、ポーズにも一般化する可能性のある視覚運動方針のゼロショット学習の課題に取り組んでいます。特に、服や箱などの可変および関節性のあるオブジェクトと、ピックアンドプレースのような剛体のオブジェクトとの取り扱い方を学ぶことが重要でした。学習されたポリシーが異なるオブジェクトの配置、方向、スケールに対して堅牢であることを保証するために、視覚的なオブジェクト表現とポリシーアーキテクチャに等速変換を組み込むことが提案されました。
彼らはEquivActという新しい視覚運動方針学習手法を提案しており、1つのソース操作シナリオでのデモから3Dロボット操作タスクの閉ループポリシーを学習し、ゼロショットで未知のシナリオに一般化することができます。学習されたポリシーは、ロボットのエンドエフェクタの姿勢と環境の部分的なポイントクラウドを入力とし、エンドエフェクタの速度やグリッパーコマンドなどのロボットのアクションを出力とします。ほとんどの従来の研究とは異なり、研究者たちはニューラルネットワークにはSIM(3)に等速変換するネットワークアーキテクチャを使用しました。つまり、出力のエンドエフェクタの速度は、入力のポイントクラウドとエンドエフェクタの位置が変換および回転される際に適応するということです。彼らのポリシーアーキテクチャが等速変換であるため、小規模の台上活動のデモから学習し、その後、異なる視覚的および物理的見た目を持つデモ対象オブジェクトの大きな変動を含むモバイル操作タスクにゼロショットで一般化することができます。
- UC San Diegoの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習の革命化
- このAI研究では、「DreamCraft3D」という、結束力のある高精細な3Dモデルを生成するための階層的な手法を紹介しています
- 中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました:大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです
この手法は、表現とポリシーの2つのパートに分かれています。エージェントの表現を訓練するために、チームはまず、ターゲットタスクのオブジェクトと同じカメラと設定を使用してキャプチャされた一連の合成ポイントクラウドを提供しますが、異なるランダムの非一様スケールでキャプチャされます。提案されたアーキテクチャが一様なスケーリングに対応している場合でも、このような非一様スケーリングのために訓練データを追加しました。シミュレーションデータにはロボットのアクティビティを示す必要はなく、実際のタスクをデモンストレーションする必要もありません。彼らは、シーンポイントクラウドからグローバルとローカルの特徴を抽出するために、シミュレーションデータを使用してSIM(3)に等速変換するエンコーダ・デコーダアーキテクチャを訓練しました。訓練中には、ペアのポイントクラウド入力に対してコントラスティブラーニングの損失を使用し、類似の位置にあるオブジェクトの関連するオブジェクトセクションのためのローカル特徴を組み合わせました。ポリシー学習フェーズでは、以前に検証されたタスクトラジェクトリのサンプルへのアクセスが制限されていると仮定されます。
研究者たちは、データを使用して閉ループポリシーを訓練し、シーンの部分的なポイントクラウドを入力とし、以前に学習したエンコーダを使用してポイントクラウドからグローバルとローカルの特徴を抽出し、それらの特徴をSIM(3)に等速変換するアクション予測ネットワークに供給してエンドエフェクタの動きを予測します。従来の剛体物の操作タスクだけでなく、この提案手法は、コンフォータの折りたたみ、容器のカバー、ボックスの封印といったより複雑なタスクで評価されました。
チームは、各活動ごとに人間がテーブル上のオブジェクトを操作する人間の例を多く提示しています。手法をデモンストレーションした後、ロボットはより大規模なスケールで同じ問題を解決する必要があるモバイル操作プラットフォームで評価されました。その結果、この手法は、ソース操作のデモから閉ループのロボット操作ポリシーを学習し、目標のジョブを一回の実行で実行するために細かな調整は必要ないことがわかりました。また、この手法はオブジェクトのポーズやスケールの範囲外への一般化に対して重要な拡張を必要とせず、等速変換を利用していない手法よりも効率的であることが示されました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」
- このOpenAIの研究では、DALL-E 3を紹介していますこのモデルは、より高度なプロンプトの追従機能を備えたテキストから画像への変換を革新しています
- 「Appleの研究者たちは、動的なポーズのRGB画像からの密集3D再構築において、画期的な人工知能アプローチを紹介する」
- ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介
- メタとUNC-Chapel Hillの研究者は、「Branch-Solve-Merge」という革新的なプログラムを導入しました:複雑な言語課題における大規模言語モデルの性能を向上させるプログラム
- CMU(カーネギーメロン大学)およびNYU(ニューヨーク大学)の研究者たちは、大規模言語モデル(LLM)を用いたゼロショット時系列予測のための人工知能メソッド「LLMTime」を提案しています
- シリコンボレー:デザイナーがチップ支援のために生成AIを活用