『見て学ぶ小さなロボット:このAIアプローチは、人間のビデオデモンストレーションを使用して、ロボットに汎用的な操作方法を教える』

小さなロボットのAIアプローチ:ビデオデモンストレーションを使って汎用的な操作方法を教える

ロボットは常にテックの世界で注目の的となってきました。彼らは常にSF映画、子供向け番組、書籍、ディストピアの小説などで場所を見つけました。それほど昔ではなく、彼らはただのSFの夢でしたが、今ではどこにでもいて、産業を再構築し、未来の一端を見せてくれています。工場から宇宙空間まで、ロボットが主役になり、今までにない精度と適応性を披露しています。

ロボティクスの風景では、常に同じ目標がありました:人間の器用さを反映することです。人間の操作能力を反映するための改善の探求は、興奮するような進展をもたらしました。アイインハンドカメラの統合により、従来の静止型の第三者カメラの補完または代替として、大きな進歩がなされています。

アイインハンドカメラは大きな可能性を秘めていますが、エラーフリーな結果を保証するわけではありません。ビジョンベースのモデルは、変動する背景、可変光、物体の外観の変化など、現実世界の変動に苦労することがよくあり、脆弱性を引き起こします。

この課題に取り組むために、最近新しい一連の一般化技術が登場しました。ビジョンデータに頼る代わりに、多様なロボットデモデータセットを使用してロボットに特定のアクションポリシーを教えるという方法です。ある程度は機能しますが、大きな問題があります。それは高価です、本当に高価です。実際のロボットセットアップでこのようなデータを収集することは、キネステティックな教育やVRヘッドセットやジョイスティックを介したロボットのテレオペレーションなど、時間のかかる作業を意味します。

この高価なデータセットに頼る必要があるのでしょうか?ロボットの主な目標は人間を模倣することですから、なぜ人間のデモンストレーションビデオを使わないのでしょうか?これらのタスクを行う人間のビデオは、人間の機敏さのため、より費用対効果の高い解決策を提供します。これにより、ロボットをリセットしたり、ハードウェアのデバッグを行ったり、困難な再配置を行ったりする必要がなくなります。これにより、ビジョン中心のロボットマニピュレーターの一般化能力を大幅に向上させるための人間のビデオデモンストレーションを活用するという興味深い可能性が生まれます。

ただし、人間とロボットの領域間のギャップを埋めることは容易なことではありません。人間とロボットの外観の相違は、慎重な考慮が必要な分布シフトを導入します。このギャップを埋める新しい研究、「Giving Robots a Hand」について見てみましょう。

既存の方法では、第三者のカメラ視点を使用して、画像の変換、ドメイン間の不変な視覚表現、および人間とロボットの状態に関するキーポイント情報を活用するドメイン適応戦略を使用して、この課題に取り組んできました。

Giving Robots a Handの概要。出典: https://arxiv.org/pdf/2307.05959.pdf

それに対して、「Giving Robots a Hand」は、確固たるルートを取ります。各画像の一貫した部分をマスキングし、人間の手やロボットのエンドエフェクターを効果的に隠すことです。このシンプルな方法は、緻密なドメイン適応技術の必要性を回避し、ロボットが直接人間のビデオから操作ポリシーを学ぶことを可能にします。その結果、人間からロボットへの画像変換に伴う顕著な視覚的な不整合から生じる問題を解決します。

提案された手法は、さまざまなタスクを実行するためにロボットを訓練することができます。出典: https://giving-robots-a-hand.github.io/

「Giving Robots a Hand」のキーポイントは、この手法の探求です。広範なアイインハンド人間のビデオデモンストレーションを環境とタスクの両方の一般化を高めるために統合する手法です。これにより、到達、掴む、ピックアンドプレース、キューブスタッキング、プレートクリアリング、おもちゃの詰め込みなど、さまざまな実世界のロボットマニピュレーションタスクで驚異的なパフォーマンスを発揮します。提案された手法は、一般化を大幅に改善します。ロボットのデモンストレーションのみで訓練されたポリシーと比較して、未知の環境とタスクでの絶対的な成功率の平均的な急増が明らかになります。58%です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AutoML - 機械学習モデルを構築するための No Code ソリューション

はじめに AutoMLは自動機械学習としても知られています。2018年、GoogleはクラウドAutoMLを発表し、大きな関心を集め、機械学...

AIニュース

(sekai no toppu 10 no sōsei AI sutātappu)

はじめに 生成AIは現在、世界中の人々の好奇心を引きつけています。私たちのソーシャルネットワーキングフィード内の仮想キャ...

AI研究

CMUとプリンストンの研究者がマンバを発表:多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展

現代の機械学習において、ファウンデーションモデルは、大量のデータで事前に学習され、その後に下流のタスクに対して改変さ...

データサイエンス

「V-Net、イメージセグメンテーションにおけるU-Netの兄貴」

イメージセグメンテーションと医療画像のためのV-Net、U-Netの兄弟分についてのレビューと紹介データサイエンティストや医療...

人工知能

ネットワークの強化:異常検出のためのML、AI、およびDLの力を解放する

「機械学習、人工知能、そして深層学習技術が、異常を精度良く検出することでネットワークセキュリティを向上させる方法を発...

機械学習

AutoMLのジレンマ

「AutoMLは過去数年間、注目の的となってきましたそのハイプは非常に高まり、人間の機械学習の専門家を置き換えるという野心...