モーターコントロールから具現化された知能へ
'Motor control to embodied intelligence'
人間や動物の動きを用いて、ロボットにボールをドリブルさせることや、シミュレートされた人型キャラクターに箱を運ばせたりサッカーをさせることを教える
5年前、完全に関節の動く人型キャラクターに障害物コースを進む方法を教えるという課題に取り組みました。これは強化学習(RL)が試行錯誤を通じて何ができるかを示しましたが、具体的な知識がない状態から各関節にどのような力を加えるべきかを知るためには、多くのデータが必要でした。エージェントはランダムな体の震えから始まり、すぐに地面に倒れてしまいました。この問題は、以前に学んだ動きを再利用することで緩和することができます。
- 以前に学んだ動きの再利用:エージェントが「立ち上がる」ためには大量のデータが必要でした。初めはどの関節にどのような力を加えるべきかを知らなかったため、エージェントはランダムな体の震えから始まり、すぐに地面に倒れてしまいました。この問題は、以前に学んだ動きを再利用することで緩和することができます。
- 独特な動き:エージェントがついに障害物コースを進む方法を学んだとしても、不自然な(しかし面白い)動きパターンで進むことになります。これは、ロボットなどの実際の応用には非現実的である可能性があります。
ここでは、これらの課題に対する解決策であるニューラル確率モーター原理(NPMP)と呼ばれる手法を説明し、人型フットボールの論文でどのようにこの手法が使用されているかについても議論します。この論文は、本日Science Roboticsで公開されました。
また、この手法は、ビジョンからの人型の全身操作(例:物体を運ぶ人型)や現実世界でのロボット制御(例:ボールをドリブルするロボット)も可能にすることについても議論します。
NPMPを使用してデータを制御可能なモータープリミティブに絞り込む
NPMPは、短期間のモーター意図を低レベルの制御信号に変換する汎用のモーター制御モジュールであり、オフラインまたはRLを介して動作キャプチャ(MoCap)データを模倣することで訓練されます。このMoCapデータは、興味のある動作を行う人間や動物にトラッカーを装着して記録されます。
このモデルには2つの部分があります:
- 将来の軌跡を受け取り、モーター意図に圧縮するエンコーダー。
- エージェントの現在の状態とこのモーター意図に基づいて次のアクションを生成する低レベルコントローラー。
トレーニング後、低レベルコントローラは新しいタスクを学習するために再利用できます。一方、高レベルコントローラはモーターの意図を直接最適化することができます。これにより、効率的な探索が可能になります。ランダムにサンプリングされたモーターの意図でも、連続した行動が生成されるため、最終的な解決策が制約されます。
ヒューマノイドフットボールにおける発生的なチーム協調
フットボールは、個々のスキルと協調したチームプレーを必要とする具体的な知能研究の長年の課題です。最新の研究では、運動スキルの学習をガイドするために、NPMPを事前に使用しました。
その結果、ボール追いかけのスキルを学習することから、最終的にはチーム協調を学習することまで進んだプレイヤーチームが誕生しました。以前の研究では、単純な具現化体を使用して、競い合うチームで協調した行動が生じることを示していました。NPMPのおかげで、より高度なモーターコントロールが必要なシナリオでも同様の効果を観察することができました。
私たちのエージェントは、敏捷な移動、パス、労働の分担などのスキルを獲得しました。これは、実世界のスポーツ分析に使用されるメトリックを含むさまざまな統計によって示されます。プレイヤーは、敏捷な高周波モーターコントロールと、チームメイトの行動の予測を含む長期的な意思決定によって、協調したチームプレーを実現しています。
視覚を使用した全身操作と認知タスク
腕を使った物体との対話を学ぶことは、別の難しい制御の課題です。NPMPはこのような全身操作も可能にすることができます。モーションキャプチャのデータを使用して、エージェントに自己中心的な視覚を使って箱を一か所から別の場所に運ぶよう訓練することができます。報酬信号は希薄ですが、少量のデータでも訓練が可能です。
同様に、エージェントにボールをキャッチして投げることを教えることもできます:
NPMPを使って、足場、知覚、記憶を伴う迷路のタスクにも取り組むことができます:
現実世界のロボットの安全で効率的な制御
NPMPは実際のロボットの制御にも役立ちます。整えられた動作は、荒れた地形の上を歩行したり、壊れやすいオブジェクトを取り扱うなどの活動において重要です。ぶれのある動きは、ロボット自体や周囲の環境を破損させるか、少なくともバッテリーを消耗させます。そのため、ロボットが安全で効率的な方法で望む動作を行うために、学習目標の設計には多大な努力が投入されることがしばしばあります。
代わりに、生物学的な動きから導かれた事前知識を使用することで、足のついたロボット(歩行、走行、旋回など)に対して、整った、自然な見た目で再利用可能な移動スキルを提供できるかどうかを調査しました。これは実世界のロボットに展開するためのものです。
人間と犬のモーションキャプチャ(MoCap)データを使用して、NPMPアプローチを適応し、シミュレーションでスキルとコントローラをトレーニングし、それを実際のヒューマノイド(OP3)および四足(ANYmal B)ロボットに展開しました。これにより、ユーザーによってジョイスティック経由でロボットを操作したり、ボールを自然な見た目で確実に指定の位置まで運んだりすることが可能になりました。
ニューラル確率的運動プリミティブの利点
要約すると、NPMPスキルモデルを使用してシミュレーションと実世界のロボットで複雑なタスクを学習しました。NPMPは低レベルの移動スキルを再利用可能な形式で提供し、非構造化の試行錯誤では発見するのが困難な有用な行動を学習しやすくします。モーションキャプチャを事前情報のソースとして使用することで、モーターコントロールの学習を自然な動きにバイアスをかけます。
NPMPは、RLを使用してより迅速に学習し、より自然な行動を学習し、実世界のロボティクスに適したより安全で効率的かつ安定した行動を学習し、チームワークや調整などの長期的な認知スキルとフルボディモーターコントロールを組み合わせることができるようにします。
私たちの取り組みについてもっと詳しく学ぶには次のリンクを参照してください:
- 選択された研究論文をご覧ください。
- Science RoboticsのHumanoid Footballの論文を読んで、または概要動画をご覧ください。
- ヒューマノイド全身制御の論文を読んで、または概要動画をご覧ください。
- 実世界のロボットの制御に関する論文を読んで、または概要動画をご覧ください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles