ニューヨーク大学とMetaの研究者が、「Dobb-E」という家庭用ロボット操作のためのオープンソースかつ汎用フレームワークを紹介した

ニューヨーク大学とMetaの研究者がオープンソースで汎用な家庭用ロボット操作フレームワーク「Dobb-E」を紹介

NYUとMetaの研究者チームは、DobbEという高度に適応性のあるシステムを開発し、家庭環境におけるロボットの操作学習の課題に取り組みました。DobbEはユーザーのデモンストレーションから学習し、適応することができるシステムです。実験では、システムの効率性が示されましたが、現実の環境でのユニークな課題も浮き彫りにされました。

この研究は、ロボットのデータセットの大量収集に関する最近の進歩を認識し、家庭や第一者のロボットとの相互作用に焦点を当てたデータセットのユニークさを強調しています。iPhoneの機能を活用して、このデータセットは高品質のアクションとレアな深度情報を提供します。既存の自動操作に焦点を当てた表現モデルに比べ、汎用的な表現のためのドメイン内での事前学習が重視されています。さらなる改善のために、ロボット以外の家庭のビデオからのドメイン外情報をデータセットに追加することを提案し、その研究の可能性を認めています。

序文では、包括的な家庭用アシスタントの構築における課題に取り組み、制御された環境から実際の家庭への転換を主張しています。効率性、安全性、ユーザーの快適さが強調され、これらの原則を体現するフレームワークとしてDobbEが紹介されています。大規模なデータと最新の機械学習を利用した効率性、安全性のための人間のデモンストレーション、ユーザーの快適さのためのエルゴノミックなツールを組み合わせて、ハードウェア、モデル、アルゴリズムをHello Robot Stretchの周りに統合しています。ニューヨークの家庭データセット、22の家庭からの多様なデモンストレーション、ビジョンモデルのための自己教師あり学習手法も議論されています。

この研究では、行動複製フレームワークを用いてDobbEを訓練し、人間やエキスパートエージェントの振る舞いを模倣します。設計されたハードウェアセットアップにより、異なる家庭のデータ、iPhoneのオドメトリなどを活用してデモンストレーションの収集とロボットに転送がスムーズに行われます。基礎モデルはこのデータで事前学習されます。訓練されたモデルは実際の家庭でテストされ、視覚表現、必要なデモンストレーション、深度知覚、デモンストレータの専門知識、パラメトリックポリシーの必要性など、システムの異なるコンポーネントを評価するアブレーション実験が行われます。

DobbEは、5分のデモンストレーションと15分のHome Pretrained Representationsモデルの適応のみで、未知の家庭環境で81%の成功率を示しました。10の異なる家庭で30日間にわたって、DobbEは109のタスクのうち102を成功裏に学習し、ビジュアル表現にはResNetモデル、アクション予測には2層ニューラルネットワークなど、シンプルながらパワフルな方法の効果を証明しました。タスクの達成時間と難易度は回帰分析によって分析され、アブレーション実験ではグラフィカル表現やデモンストレータの専門知識など、異なるシステムコンポーネントが評価されました。

結論として、DobbEはさまざまな家庭環境でテストされた費用対効果の高い多目的なロボット操作システムで、驚異的な81%の成功率を示しました。DobbEチームは、システムのソフトウェアスタック、モデル、データ、ハードウェア設計を自由にオープンソース化し、家庭用ロボットの研究の推進とロボット執事の広範な普及を促進しています。DobbEの成功は、行動複製やアクション予測のための2層ニューラルネットワークなど、パワフルでシンプルな手法によるものです。実験はまた、照明条件や影がタスクの実行に影響を与える課題についての示唆も提供しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ChatGPTの基礎を学ぶための優れたリソース

この記事では、ChatGPT(および大規模言語モデル)の中核を構成する基本的な要素について学びます

AIニュース

「ベストプロキシサーバー(2023年9月)」

プロキシサーバは、コンピュータが自分自身の代わりにリクエストを行うためのネットワーク上で動作するアプリケーションまた...

データサイエンス

マシンラーニングエンジニアは、実際に何をしているのでしょうか?

「タイトルはもちろんトリックの質問ですデータサイエンティストの前にも、機械学習エンジニアというタイトルは、私たちの専...

機械学習

「トランスフォーマーの単純化:あなたが理解する言葉を使った最先端の自然言語処理(NLP)— パート1 — イントロ」

「トランスフォーマーは、AIの進歩に大きく貢献したディープラーニングのアーキテクチャですそれはAIとテクノロジー全体の範...

AI研究

アリババの研究者は、Qwen-VLシリーズを紹介しますこれは、テキストと画像の両方を認識し理解するために設計された大規模なビジョン・ランゲージ・モデルのセットです

最近、大規模言語モデル(LLM)は、強力なテキスト生成能力と理解能力を持つため、多くの関心を集めています。これらのモデル...