デューク大学の研究者たちは、ポリシーステッチングを提案していますこれは、ロボットとタスクの新しい組み合わせにおけるロボットの転送学習を容易にする、画期的なAIフレームワークです

「デューク大学の研究チームが提案するポリシーステッチング:ロボットの転送学習を容易にする画期的なAIフレームワーク」

ロボット工学では、環境の変化やロボット構造の変更に敏感なスキルをロボットに教えるために、強化学習(RL)を使用する際に研究者は課題に直面しています。現在の方法は、ロボットとタスクの新しい組み合わせに対して一般化するための支援が必要であり、アーキテクチャの複雑さと強力な正則化のために複雑な現実のタスクを処理することができません。この問題に対処するために、デューク大学と空軍研究所の研究者らはポリシーステッチング(PS)を導入しました。この手法は、別々に訓練されたロボットとタスクモジュールを組み合わせて迅速な適応のための新しいポリシーを作成することを可能にします。3D操作タスクを含むシミュレーションおよび実世界の実験は、PSの非常に優れたゼロショットおよびフューショットの転移学習能力を示しています。

異なる環境条件や新しいタスクに対してロボットポリシーを転送する際には、課題が残っています。これまでの研究は、価値関数、報酬、経験サンプル、ポリシー、パラメータ、および特徴などのRLフレームワーク内の特定のコンポーネント移動に主に集中してきました。メタ学習は、新しいタスクへの迅速な適応を可能にする解決策として登場し、改良されたパラメータの初期化と新しいデータの迅速な統合を提供するためのメモリを拡張したニューラルネットワークを提供します。ゼロショットの転移学習、マルチタスク学習、ライフロングラーニングに適用されるコンポジショナルRLは有望な結果を示しています。このフレームワーク内の訓練済みモジュールは、大規模なモジュラーシステム内での使用に制限されており、新しいモジュールとシームレスに統合することはできません。

ロボットシステムは、過去の知識に基づいて新しいスキルを継続的に習得する人間とは対照的に、学習経験を新しいタスクやボディ構成に転送する際に課題があります。モデルベースのロボット学習は、さまざまなタスクに対してロボットの運動学と動力学の予測モデルを構築することを目指しています。一方、モデルフリーRLはエンドツーエンドでポリシーを訓練しますが、転移学習の性能はしばしば制限されます。現在のマルチタスクRLのアプローチでは、タスクの数に比例してポリシーネットワークの容量が指数関数的に拡大するため、困難に直面します。

PSは、モジュラーポリシーデザインと転送可能な表現を活用して、異なるタスクとロボット構成間での知識転送を容易にします。このフレームワークは、モデルフリーRLアルゴリズムの幅広い適用に適応します。本研究では、教師あり学習からモデルフリーRLへの相対表現の概念を拡張し、中間表現を共通の潜在座標系に整列させることで、変換不変性の促進に焦点を当てています。

PSはゼロショットおよびフューショットの転移学習能力において、既存の方法を上回り、シミュレーションおよび実世界のシナリオで優れた成果を収めています。ゼロショットの転送では、PSは100%の成功率でタッチし、40%の総合成功率を達成し、実用的な実世界の設定で効果的に一般化する能力を示しています。潜在表現の整列により、ステッチポリシー内の高次元の潜在状態間のペアワイズ距離が大幅に縮小されることが示されており、PSの転送可能な表現の学習における成功を裏付けています。実験は、物理的なロボットセットアップ内でのPSの実世界での適用可能性に関する実践的な洞察を提供し、非効果的なPSでのモーバイル表現を提供しています。

結論として、PSはモジュラーポリシーデザインと潜在空間の整列の利点を示しつつ、ロボット学習ポリシーを新しいロボットタスクの組み合わせにシームレスに転送する効果を証明しています。この手法は、特に高次元の状態表現や微調整の必要性に関する現在の制約を克服することを目指しています。研究では、アンカー選択における自己教師付きテクニックを探求し、アンカー状態に頼らないネットワークモジュールの整列方法の代替手段を調査するなど、将来の研究方向を示しています。この研究は、PSの多様な形態を持つロボットプラットフォームへの展開の可能性を強調しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

GPT4Allは、あなたのドキュメント用のローカルChatGPTであり、無料です!

あなたのラップトップにGPT4Allをインストールし、AIにあなた自身のドメイン知識(あなたのドキュメント)について尋ねる方法...

AI研究

Salesforce AIは、既存の拡散モデルを与えられた場合に、テキストから画像への拡散生成を行う新しい編集アルゴリズム「EDICT」を開発しました

最近のテクノロジーと人工知能の分野における進歩により、多くのイノベーションが生まれています。超トレンディなChatGPTモデ...

AIニュース

ホワイトキャッスルへようこそそれに人との会話を希望されますか?

ホワイトキャッスルのようなファストフードチェーンは、ドライブスルーで人工知能を活用したチャットボットを展開しています

AIニュース

「韓国が自律型ロボットに歩道の利用を許可」

「韓国政府は、認可された自律ロボットを国の歩道を走らせることを許可しています」

データサイエンス

「MLOpsは過学習していますその理由をここで説明します」

「MLは、独自のDevOpsアプローチとそれにマッチするインフラストラクチャを必要とするユニークなプラクティスですか? MLOps...

人工知能

3Dアーティストのヌルハン・イスマイルは、Adobe After EffectsとBlenderを使用して、イソメトリックな革新を「NVIDIA Studio」にもたらす

編集者の注:この投稿は、弊社の週刊In the NVIDIA Studioシリーズの一部で、注目されたアーティストを称え、クリエイティブ...