より一般的なロボットへのスタッキング

General robot stacking

ビジョンベースのロボット操作の新しいベンチマーク、RGB-スタッキングの紹介

棒を拾って丸太の上にバランスを取る、または石の上に小石を積み重ねることは、人にとっては簡単で似たような行動に見えるかもしれません。しかし、ほとんどのロボットは一度に複数のこのようなタスクを処理するのに苦労します。棒を操作するには、石を積み上げるよりも異なる行動パターンが必要であり、ましてやさまざまな皿を積み重ねたり家具を組み立てたりすることなどはなおさらです。これらのタスクをロボットに教える前に、まずはロボットがより幅広いオブジェクトとの相互作用を学ぶ必要があります。DeepMindのミッションの一環として、より一般的で有用なロボットを実現するための一歩として、私たちは、異なる形状のオブジェクトとの相互作用をロボットがよりよく理解する方法を探求しています。

私たちは、CoRL 2021（ロボット学習の会議）で発表される予定の論文として、またOpenReviewのプレプリントとしてすでに利用可能なものとして、RGB-スタッキングを新たなビジョンベースのロボット操作のベンチマークとして紹介しています。このベンチマークでは、ロボットが異なるオブジェクトを掴んで重ねる方法を学ぶ必要があります。私たちの研究を他の先行研究とは異なるものにするのは、使用されるオブジェクトの多様性と、私たちの結果を検証するために行われた大量の実証評価です。私たちの結果は、シミュレーションと現実世界のデータの組み合わせを使用して、複雑なマルチオブジェクト操作を学ぶための強力な基準を示しており、新しいオブジェクトへの一般化の問題に対する強力なベースラインを提案しています。他の研究者をサポートするために、私たちはシミュレートされた環境のバージョンをオープンソース化し、実際のロボットのRGB-スタッキング環境の設計を公開し、さらにRGBオブジェクトモデルとそれらを3Dプリントするための情報も提供します。また、私たちのロボティクス研究で使用されるライブラリやツールのコレクションもオープンソース化しています。

RGB-スタッキングでは、強化学習を通じてロボットアームを訓練し、異なる形状のオブジェクトを積み重ねることを目指しています。バスケットの上に取り付けられた並行グリッパーをロボットアームに配置し、バスケットには3つのオブジェクト（赤、緑、青の各色）を配置します。タスクはシンプルです。20秒以内に赤いオブジェクトを青いオブジェクトの上に積み重ねることであり、緑のオブジェクトは障害物となるため、注意をそらす役割を果たします。学習プロセスでは、エージェントが複数のオブジェクトセットでトレーニングを通じて一般化されたスキルを獲得するようになります。私たちは故意に、グラスプとスタックのアフォーダンス（エージェントが各オブジェクトを掴んだり積み重ねたりするための特性）を変化させています。この設計原則により、エージェントは単純なピックアンドプレイス戦略を超える行動を示す必要があります。

<img alt="各トリプレットはエージェントに独自の課題を与えます：トリプレット1は上部のオブジェクトを正確に掴む必要があります。トリプレット2は、スタックする前に上部のオブジェクトをフリップするためのツールとして上部のオブジェクトを使用する必要があります。トリプレット3はバランスが必要です。トリプレット4は精密なスタッキングが必要です（つまり、オブジェクトの重心を合わせる必要があります）。そして、トリプレット5の上部のオブジェクトは穏やかに積み重ねないと簡単に転がってしまいます。このタスクの課題を評価する際、手動でコーディングされたスクリプトベースラインのスタッキング成功率は51％であることがわかりました。

私たちのRGB-スタッキングベンチマークには、難易度の異なる2つのタスクバージョンが含まれています。”Skill Mastery”では、5つのトリプレットをスタッキングすることに熟達した単一のエージェントを訓練することを目標としています。”Skill Generalisation”では、同じトリプレットを評価に使用しますが、訓練オブジェクトはテストトリプレットから選ばれたオブジェクトのファミリーを除外した大量のトレーニングオブジェクトで訓練します。両バージョンでは、学習パイプラインを3つのステージに分割しています。

最初に、オフシェルフの強化学習アルゴリズムであるMaximum a Posteriori Policy Optimisation (MPO) を使用してシミュレーションでトレーニングを行います。この段階では、シミュレータの状態を使用し、オブジェクトの位置を画像内で検出する必要がないため、トレーニングが高速に行えます。ただし、このポリシーは実際のロボットに直接適用することはできません。
次に、リアルな観測データでシミュレーションで新しいポリシーをトレーニングします。観測データには画像とロボットの固有の状態が含まれます。ドメインランダマイズドシミュレーションを使用して、実世界の画像と動態への転送を改善します。状態ポリシーは教師として機能し、学習エージェントに行動の修正を提供し、これらの修正は新しいポリシーに統合されます。
最後に、このポリシーを実際のロボット上で使用してデータを収集し、クリティック正則化回帰（CRR）のような学習済みのQ関数に基づいて良好な遷移を重み付けして改善されたポリシーをオフラインでトレーニングします。これにより、実際のロボット上で時間のかかるオンライントレーニングアルゴリズムを実行する代わりに、プロジェクト中に収集されるパッシブなデータを使用することができます。

このように学習パイプラインを分離することは、2つの主要な理由で重要です。まず、ロボット上でゼロから始めると時間がかかりすぎるため、問題を解決することが可能になります。さらに、異なるメンバーがパイプラインの異なる部分に取り組むことができるため、研究速度が向上します。

5つのトリプレットを積み上げるための新しい行動を示すエージェント。Skill Masteryにおいて、シミュレーション（ステージ2）で平均成功率79%、リアルロボット（ステージ2）でゼロショット成功率68%、およびリアルデータからのポリシー改善後（ステージ3）で82%の成功率を達成しました。Skill Generalisationにおいて、同じパイプラインで最終的なエージェントはリアルロボットでの成功率54%を達成しました。Skill MasteryとGeneralisationの間のギャップを縮めることは、未解決の課題となっています。

近年、学習アルゴリズムを使用して困難な実際のロボット操作問題を大規模に解決するための研究が多く行われていますが、その多くは掴む、押す、または他の形式の単一のオブジェクトを操作するというタスクに焦点が当てられています。私たちの論文で説明するRGB-Stackingのアプローチは、GitHubで利用可能なロボティクスリソースと共に、驚くほどの積み重ね戦略と積み重ねの一部のマスタリーを実現します。ただし、これは可能性の一部に過ぎず、一般化の課題は完全に解決されていません。研究者がロボット工学における真の一般化の課題を解決し続ける中で、私たちはこの新しいベンチマークと環境、設計、そして公開したツールが、操作をより容易にし、ロボットの能力を高めるための新しいアイデアと手法に貢献することを願っています。

‍

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

research

Was this article helpful?

93 out of 132 found this helpful

より一般的なロボットへのスタッキング

ビジョンベースのロボット操作の新しいベンチマーク、RGB-スタッキングの紹介

Was this article helpful?

DeepMindの最新のICLR 2022での研究

MPT-30B：モザイクMLは新しいLLMを使用して、NLPの限界を em>GPT-3を凌駕します

AI研究

「FlexGenに会おう：GPUメモリが限られている場合に大規模な言語モデル（LLM）を実行するための高スループットな生成エンジン」

AI幻覚とは何ですか？AIチャットボットで何が間違っているのですか？幻覚を起こしている人工知能を見つける方法は？

「AI倫理ツールキットが機能する理由を探る」

「DeepMind AIが数百万の動画のために自動生成された説明を作成することで、YouTube Shortsの露出を大幅に向上させる」

「マイクロソフト、Windows上でのCortanaの終了を発表」

「フリーノイズ」にご挨拶：複数のテキストプロンプトから最大512フレームまでの長いビデオを生成する新しい人工知能手法