CMUの研究者たちは、視覚的な先行知識をロボティクスのタスクに転送するためのシンプルなディスタンスラーニングAIメソッドを開発しました:ベースラインに比べてポリシーラーニングを20%改善

CMUの研究者は、ロボティクスのタスクに視覚的な知識を転送するためのシンプルなAIメソッドを開発し、ポリシーラーニングを20%改善しました

ロボット学習における重要な障壁の一つは、十分な大規模データセットの不足です。ロボティクスのデータセットには、(a)スケーリングが困難であること、(b)無菌で非現実的な環境(ロボティクスラボなど)で収集されること、および(c)均質すぎること(事前に設定された背景や照明を持つおもちゃのアイテムなど)の問題があります。一方、ビジョンデータセットには、さまざまなタスク、オブジェクト、環境が含まれています。そのため、最新の手法では、大規模なビジョンデータセットに対して開発された事前知識をロボティクスのアプリケーションにも応用することの実現可能性を調査しています。

ビジョンデータセットを使用する先行研究では、画像観察を状態ベクトルとしてエンコードする事前学習された表現が使用されています。このグラフィカルな表現は、ロボットから収集されたデータを使用してトレーニングされたコントローラーに単純に送信されます。事前学習されたネットワークの潜在空間は既に意味的なタスクレベルの情報を組み込んでいるため、チームはそれだけで状態を表現するだけでなく、他のこともできると提案しています。

カーネギーメロン大学の研究チームによる新しい研究では、ニューラルな画像表現は単なる状態表現以上のものであり、埋め込み空間内で作成された単純なメトリックを使用してロボットの動きを推測するために使用できることを示しています。研究者たちは、この理解を使用して、非常に少量の安価な人間のデータを使用して距離関数と動力学関数を学習することができるロボットプランナーを学習します。これらのモジュールは、4つの典型的な操作作業でテストされています。

これは、事前学習された表現を2つの異なるモジュールに分割することによって達成されます:(a)1ステップの動力学モジュールは、現在の状態/アクションに基づいてロボットの次の状態を予測します。(b)「機能的な距離モジュール」は、現在の状態でロボットが目標にどれだけ近いかを決定します。対照的な学習目的を使用して、距離関数は人間のデモンストレーションからわずかな量のデータで学習されます。

提案されたシステムは、使用が容易であるにもかかわらず、従来の模倣学習やオフラインRLアプローチに比べてロボット学習で優れたパフォーマンスを発揮することが示されています。マルチモーダルなアクション分布を扱う際には、標準的なBCベースラインと比較して、この手法の方がはるかに優れた結果を示します。削除調査の結果は、より良い表現がより良い制御性能につながり、システムが実世界で効果的であるためには動力学的な基礎づけが必要であることを示しています。

事前学習された表現自体が(その構造により)困難な作業を行い、マルチモーダルで連続的なアクション予測の難しさを完全に回避するため、この方法がポリシー学習(行動複製を通じて)よりも優れていることが示されています。さらに、学習された距離関数は安定しており、トレーニングが容易であり、スケーラブルで一般化可能です。

チームは、自身の研究がロボティクスと表現学習の分野で新たな研究を引き起こすことを期待しています。その後、将来の研究では、グリッパー/ハンドと処理される物体との間の粒度の細かい相互作用をより適切に描写することで、ビジョン表現をさらに洗練させる必要があります。これにより、ツマミを回すなどの活動において、事前学習されたR3Mエンコーダがグリップ位置の微妙な変化を検出するのに苦労するパフォーマンスが向上する可能性があります。彼らは、研究がアクションラベルの存在しない状態でも完全に学習するために彼らのアプローチを使用することを望んでいます。最後に、ドメインのギャップにもかかわらず、彼らの安価なスティックで収集された情報がより強力で信頼性のある(商業的な)グリッパーと組み合わせて使用されることができれば素晴らしいと考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

Google研究者がAudioPaLMを導入:音声技術における革新者 - 聞き、話し、そして前例のない精度で翻訳する新しい大規模言語モデル

大規模言語モデル(LLM)が数ヶ月間注目を集めています。人工知能の分野で最も優れた進歩の1つであり、これらのモデルは人間...

データサイエンス

フェイスブックデータ分析のためのWekaライブラリの活用

「Wekaライブラリを活用してFacebookデータの分析、前処理、特徴選択、クラスタリングを行い、ユーザーの行動に関する洞察を...

機械学習

このAI論文では、大規模なマルチモーダルモデルの機能を拡張する汎用のマルチモーダルアシスタントであるLLaVA-Plusを紹介しています

“`html 多様な現実世界の活動を効率的に実行できる汎用アシスタントを作成することは、長年にわたり人工知能の目標とな...

データサイエンス

「良い説明がすべてです」

私は大規模な言語モデル(LLM)をしばらく使っていますが、個人のプロジェクトや日常の仕事の一環として使用しています多くの...

機械学習

「このGSAi中国のAI論文は、LLMベースの自律エージェントの包括的な研究を提案しています」

自律エージェントは、さまざまな程度の独立性を示す自己操作システムを表します。最近の研究では、広範なトレーニングデータ...

AIニュース

「AutoGenを使った戦略的AIチームビルディングが簡単になりました」

イントロダクション デジタルフロンティアが無限の領域に達し、AutoGenは変革的なパラダイムの設計者として現れます。異なる...