ニューヨーク大学とMetaの研究者が、「Dobb-E」という家庭用ロボット操作のためのオープンソースかつ汎用フレームワークを紹介した

ニューヨーク大学とMetaの研究者がオープンソースで汎用な家庭用ロボット操作フレームワーク「Dobb-E」を紹介

NYUとMetaの研究者チームは、DobbEという高度に適応性のあるシステムを開発し、家庭環境におけるロボットの操作学習の課題に取り組みました。DobbEはユーザーのデモンストレーションから学習し、適応することができるシステムです。実験では、システムの効率性が示されましたが、現実の環境でのユニークな課題も浮き彫りにされました。

この研究は、ロボットのデータセットの大量収集に関する最近の進歩を認識し、家庭や第一者のロボットとの相互作用に焦点を当てたデータセットのユニークさを強調しています。iPhoneの機能を活用して、このデータセットは高品質のアクションとレアな深度情報を提供します。既存の自動操作に焦点を当てた表現モデルに比べ、汎用的な表現のためのドメイン内での事前学習が重視されています。さらなる改善のために、ロボット以外の家庭のビデオからのドメイン外情報をデータセットに追加することを提案し、その研究の可能性を認めています。

序文では、包括的な家庭用アシスタントの構築における課題に取り組み、制御された環境から実際の家庭への転換を主張しています。効率性、安全性、ユーザーの快適さが強調され、これらの原則を体現するフレームワークとしてDobbEが紹介されています。大規模なデータと最新の機械学習を利用した効率性、安全性のための人間のデモンストレーション、ユーザーの快適さのためのエルゴノミックなツールを組み合わせて、ハードウェア、モデル、アルゴリズムをHello Robot Stretchの周りに統合しています。ニューヨークの家庭データセット、22の家庭からの多様なデモンストレーション、ビジョンモデルのための自己教師あり学習手法も議論されています。

この研究では、行動複製フレームワークを用いてDobbEを訓練し、人間やエキスパートエージェントの振る舞いを模倣します。設計されたハードウェアセットアップにより、異なる家庭のデータ、iPhoneのオドメトリなどを活用してデモンストレーションの収集とロボットに転送がスムーズに行われます。基礎モデルはこのデータで事前学習されます。訓練されたモデルは実際の家庭でテストされ、視覚表現、必要なデモンストレーション、深度知覚、デモンストレータの専門知識、パラメトリックポリシーの必要性など、システムの異なるコンポーネントを評価するアブレーション実験が行われます。

DobbEは、5分のデモンストレーションと15分のHome Pretrained Representationsモデルの適応のみで、未知の家庭環境で81%の成功率を示しました。10の異なる家庭で30日間にわたって、DobbEは109のタスクのうち102を成功裏に学習し、ビジュアル表現にはResNetモデル、アクション予測には2層ニューラルネットワークなど、シンプルながらパワフルな方法の効果を証明しました。タスクの達成時間と難易度は回帰分析によって分析され、アブレーション実験ではグラフィカル表現やデモンストレータの専門知識など、異なるシステムコンポーネントが評価されました。

結論として、DobbEはさまざまな家庭環境でテストされた費用対効果の高い多目的なロボット操作システムで、驚異的な81%の成功率を示しました。DobbEチームは、システムのソフトウェアスタック、モデル、データ、ハードウェア設計を自由にオープンソース化し、家庭用ロボットの研究の推進とロボット執事の広範な普及を促進しています。DobbEの成功は、行動複製やアクション予測のための2層ニューラルネットワークなど、パワフルでシンプルな手法によるものです。実験はまた、照明条件や影がタスクの実行に影響を与える課題についての示唆も提供しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

CPR-CoachによるCPRトレーニングの革命:エラー認識と評価に人工知能を活用

心肺蘇生(CPR)は、心臓が効果的に拍動しなくなったり、呼吸が止まるといった心停止を経験した個人を蘇生させるための命を救...

データサイエンス

現代の生成的AIアプリケーションにおけるベクトルデータベースの役割

大規模な生成AIアプリケーションがうまく機能するためには、多くのデータを処理できる良いシステムが必要ですそのような重要...

機械学習

「メタのCode Llamaコード生成モデルは、Amazon SageMaker JumpStartを介して利用可能になりました」

今日は、Metaが開発したCode Llama foundationモデルが、Amazon SageMaker JumpStartを通じて顧客に提供され、クリックひとつ...

データサイエンス

LMSYS-Chat-1Mとは、25の最新のLLM(Large Language Models)を使用して作成された、100万件の実世界の会話を含む大規模データセットです

大規模言語モデル(LLM)は、仮想アシスタントからコード生成まで、さまざまなAIアプリケーションに不可欠な存在となっていま...

機械学習

このAI論文は、医療の視覚的な質問応答におけるGPT-4Vの性能について包括的な分析を紹介します:洞察と限界

リハイ大学、マサチューセッツ総合病院、ハーバード医学大学の研究者チームが最近、最先端のマルチモーダル言語モデルであるG...

機械学習

「ネットイース・ヨウダオがEmotiVoiceをオープンソース化:強力でモダンなテキスト読み上げエンジン」というタイトルの記事です

NetEase Youdaoは、「易墨生」というオープンソースのテキスト読み上げ(TTS)エンジンの正式リリースを発表しました。これは...