CMUの研究者たちは、視覚的な先行知識をロボティクスのタスクに転送するためのシンプルなディスタンスラーニングAIメソッドを開発しました:ベースラインに比べてポリシーラーニングを20%改善

CMUの研究者は、ロボティクスのタスクに視覚的な知識を転送するためのシンプルなAIメソッドを開発し、ポリシーラーニングを20%改善しました

ロボット学習における重要な障壁の一つは、十分な大規模データセットの不足です。ロボティクスのデータセットには、(a)スケーリングが困難であること、(b)無菌で非現実的な環境(ロボティクスラボなど)で収集されること、および(c)均質すぎること(事前に設定された背景や照明を持つおもちゃのアイテムなど)の問題があります。一方、ビジョンデータセットには、さまざまなタスク、オブジェクト、環境が含まれています。そのため、最新の手法では、大規模なビジョンデータセットに対して開発された事前知識をロボティクスのアプリケーションにも応用することの実現可能性を調査しています。

ビジョンデータセットを使用する先行研究では、画像観察を状態ベクトルとしてエンコードする事前学習された表現が使用されています。このグラフィカルな表現は、ロボットから収集されたデータを使用してトレーニングされたコントローラーに単純に送信されます。事前学習されたネットワークの潜在空間は既に意味的なタスクレベルの情報を組み込んでいるため、チームはそれだけで状態を表現するだけでなく、他のこともできると提案しています。

カーネギーメロン大学の研究チームによる新しい研究では、ニューラルな画像表現は単なる状態表現以上のものであり、埋め込み空間内で作成された単純なメトリックを使用してロボットの動きを推測するために使用できることを示しています。研究者たちは、この理解を使用して、非常に少量の安価な人間のデータを使用して距離関数と動力学関数を学習することができるロボットプランナーを学習します。これらのモジュールは、4つの典型的な操作作業でテストされています。

これは、事前学習された表現を2つの異なるモジュールに分割することによって達成されます:(a)1ステップの動力学モジュールは、現在の状態/アクションに基づいてロボットの次の状態を予測します。(b)「機能的な距離モジュール」は、現在の状態でロボットが目標にどれだけ近いかを決定します。対照的な学習目的を使用して、距離関数は人間のデモンストレーションからわずかな量のデータで学習されます。

提案されたシステムは、使用が容易であるにもかかわらず、従来の模倣学習やオフラインRLアプローチに比べてロボット学習で優れたパフォーマンスを発揮することが示されています。マルチモーダルなアクション分布を扱う際には、標準的なBCベースラインと比較して、この手法の方がはるかに優れた結果を示します。削除調査の結果は、より良い表現がより良い制御性能につながり、システムが実世界で効果的であるためには動力学的な基礎づけが必要であることを示しています。

事前学習された表現自体が(その構造により)困難な作業を行い、マルチモーダルで連続的なアクション予測の難しさを完全に回避するため、この方法がポリシー学習(行動複製を通じて)よりも優れていることが示されています。さらに、学習された距離関数は安定しており、トレーニングが容易であり、スケーラブルで一般化可能です。

チームは、自身の研究がロボティクスと表現学習の分野で新たな研究を引き起こすことを期待しています。その後、将来の研究では、グリッパー/ハンドと処理される物体との間の粒度の細かい相互作用をより適切に描写することで、ビジョン表現をさらに洗練させる必要があります。これにより、ツマミを回すなどの活動において、事前学習されたR3Mエンコーダがグリップ位置の微妙な変化を検出するのに苦労するパフォーマンスが向上する可能性があります。彼らは、研究がアクションラベルの存在しない状態でも完全に学習するために彼らのアプローチを使用することを望んでいます。最後に、ドメインのギャップにもかかわらず、彼らの安価なスティックで収集された情報がより強力で信頼性のある(商業的な)グリッパーと組み合わせて使用されることができれば素晴らしいと考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

この人工知能論文は、画像認識における差分プライバシーの高度な手法を提案し、より高い精度をもたらします

機械学習は、近年のパフォーマンスにより、さまざまな領域で大幅に増加しました。現代のコンピュータの計算能力とグラフィッ...

機械学習

映画チャットをご紹介しますビデオの基礎モデルと大規模な言語モデルを統合した革新的なビデオ理解システムです

大規模言語モデル(LLM)は最近、自然言語処理(NLP)の分野で大きな進歩を遂げています。LLMにマルチモーダリティを追加し、...

機械学習

このAI論文では、COLT5という新しいモデルを提案していますこのモデルは、より高品質かつ高速な処理のために条件付き計算を使用する、長距離入力のためのものです

様々な自然言語処理タスクにおいて、長い文章をエンコードするためには、機械学習モデルが必要です。例えば、長い文書の要約...

機械学習

「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール(FGS)を使用した痛み予測に使用できます」

人工知能(AI)の能力は、医療、金融、教育など、あらゆる業界に広がっています。医学や獣医学の分野では、適切な治療を施す...

機械学習

『LLM360をご紹介します:最初の完全オープンソースで透明な大規模言語モデル(LLM)』

“`html オープンソースの大規模言語モデル(LLM)であるLLaMA、Falcon、Mistralなどは、AIのプロフェッショナルや学者...

データサイエンス

SciKit Pipelinesについての簡単な紹介'

「機械学習モデルをトレーニングしたことがありますか?そして、予測があまりにも良すぎて信じられないと思ったことはありま...