CMUの研究者たちは、視覚的な先行知識をロボティクスのタスクに転送するためのシンプルなディスタンスラーニングAIメソッドを開発しました:ベースラインに比べてポリシーラーニングを20%改善

CMUの研究者は、ロボティクスのタスクに視覚的な知識を転送するためのシンプルなAIメソッドを開発し、ポリシーラーニングを20%改善しました

ロボット学習における重要な障壁の一つは、十分な大規模データセットの不足です。ロボティクスのデータセットには、(a)スケーリングが困難であること、(b)無菌で非現実的な環境(ロボティクスラボなど)で収集されること、および(c)均質すぎること(事前に設定された背景や照明を持つおもちゃのアイテムなど)の問題があります。一方、ビジョンデータセットには、さまざまなタスク、オブジェクト、環境が含まれています。そのため、最新の手法では、大規模なビジョンデータセットに対して開発された事前知識をロボティクスのアプリケーションにも応用することの実現可能性を調査しています。

ビジョンデータセットを使用する先行研究では、画像観察を状態ベクトルとしてエンコードする事前学習された表現が使用されています。このグラフィカルな表現は、ロボットから収集されたデータを使用してトレーニングされたコントローラーに単純に送信されます。事前学習されたネットワークの潜在空間は既に意味的なタスクレベルの情報を組み込んでいるため、チームはそれだけで状態を表現するだけでなく、他のこともできると提案しています。

カーネギーメロン大学の研究チームによる新しい研究では、ニューラルな画像表現は単なる状態表現以上のものであり、埋め込み空間内で作成された単純なメトリックを使用してロボットの動きを推測するために使用できることを示しています。研究者たちは、この理解を使用して、非常に少量の安価な人間のデータを使用して距離関数と動力学関数を学習することができるロボットプランナーを学習します。これらのモジュールは、4つの典型的な操作作業でテストされています。

これは、事前学習された表現を2つの異なるモジュールに分割することによって達成されます:(a)1ステップの動力学モジュールは、現在の状態/アクションに基づいてロボットの次の状態を予測します。(b)「機能的な距離モジュール」は、現在の状態でロボットが目標にどれだけ近いかを決定します。対照的な学習目的を使用して、距離関数は人間のデモンストレーションからわずかな量のデータで学習されます。

提案されたシステムは、使用が容易であるにもかかわらず、従来の模倣学習やオフラインRLアプローチに比べてロボット学習で優れたパフォーマンスを発揮することが示されています。マルチモーダルなアクション分布を扱う際には、標準的なBCベースラインと比較して、この手法の方がはるかに優れた結果を示します。削除調査の結果は、より良い表現がより良い制御性能につながり、システムが実世界で効果的であるためには動力学的な基礎づけが必要であることを示しています。

事前学習された表現自体が(その構造により)困難な作業を行い、マルチモーダルで連続的なアクション予測の難しさを完全に回避するため、この方法がポリシー学習(行動複製を通じて)よりも優れていることが示されています。さらに、学習された距離関数は安定しており、トレーニングが容易であり、スケーラブルで一般化可能です。

チームは、自身の研究がロボティクスと表現学習の分野で新たな研究を引き起こすことを期待しています。その後、将来の研究では、グリッパー/ハンドと処理される物体との間の粒度の細かい相互作用をより適切に描写することで、ビジョン表現をさらに洗練させる必要があります。これにより、ツマミを回すなどの活動において、事前学習されたR3Mエンコーダがグリップ位置の微妙な変化を検出するのに苦労するパフォーマンスが向上する可能性があります。彼らは、研究がアクションラベルの存在しない状態でも完全に学習するために彼らのアプローチを使用することを望んでいます。最後に、ドメインのギャップにもかかわらず、彼らの安価なスティックで収集された情報がより強力で信頼性のある(商業的な)グリッパーと組み合わせて使用されることができれば素晴らしいと考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「完璧なコンビ:adidasとCovision MediaがAIとNVIDIA RTXを使用して写真のようなリアルな3Dコンテンツを作成」

物理製品の3Dスキャンを作成するのは時間がかかる場合があります。多くの企業は、フォトグラメトリーベースのアプリやスキャ...

AIニュース

Gスイートの見逃せない5つのGoogle Duet AIの驚異的な機能

Googleは最新のイノベーション、Duet AIにより再びレベルを引き上げました。このG-Suiteファミリーの強力な追加機能は、Sheet...

データサイエンス

「ミストラル・トリスメギストス7Bにお会いしてください:神秘的で霊的なオカルトの知恵伝統に関する指示データセット...」

ミストラル・トリスメギストス7Bは、Google AIによって開発された巨大な言語モデルであり、巨大な文学とコードのデータセット...

機械学習

Google AIはPixelLLMを提案します:細かい粒度のローカリゼーションとビジョン・ランゲージのアラインメントが可能なビジョン・ランゲージモデル

大規模言語モデル(LLMs)は、自然言語処理(NLP)、自然言語生成(NLG)、コンピュータビジョンなど、人工知能(AI)のサブ...

機械学習

LLMのトレーニングの異なる方法

大規模言語モデル(LLM)の領域では、さまざまなトレーニングメカニズムがあり、異なる手段、要件、目標がありますそれぞれが...

人工知能

「2023年のAIに関するガートナー・ハイプ・サイクル」

新しい生成AI技術の登場により、AIの景観が急速に進化したことについて掘り下げましょう