ニューヨーク大学とMetaの研究者が、「Dobb-E」という家庭用ロボット操作のためのオープンソースかつ汎用フレームワークを紹介した
ニューヨーク大学とMetaの研究者がオープンソースで汎用な家庭用ロボット操作フレームワーク「Dobb-E」を紹介
NYUとMetaの研究者チームは、DobbEという高度に適応性のあるシステムを開発し、家庭環境におけるロボットの操作学習の課題に取り組みました。DobbEはユーザーのデモンストレーションから学習し、適応することができるシステムです。実験では、システムの効率性が示されましたが、現実の環境でのユニークな課題も浮き彫りにされました。
この研究は、ロボットのデータセットの大量収集に関する最近の進歩を認識し、家庭や第一者のロボットとの相互作用に焦点を当てたデータセットのユニークさを強調しています。iPhoneの機能を活用して、このデータセットは高品質のアクションとレアな深度情報を提供します。既存の自動操作に焦点を当てた表現モデルに比べ、汎用的な表現のためのドメイン内での事前学習が重視されています。さらなる改善のために、ロボット以外の家庭のビデオからのドメイン外情報をデータセットに追加することを提案し、その研究の可能性を認めています。
序文では、包括的な家庭用アシスタントの構築における課題に取り組み、制御された環境から実際の家庭への転換を主張しています。効率性、安全性、ユーザーの快適さが強調され、これらの原則を体現するフレームワークとしてDobbEが紹介されています。大規模なデータと最新の機械学習を利用した効率性、安全性のための人間のデモンストレーション、ユーザーの快適さのためのエルゴノミックなツールを組み合わせて、ハードウェア、モデル、アルゴリズムをHello Robot Stretchの周りに統合しています。ニューヨークの家庭データセット、22の家庭からの多様なデモンストレーション、ビジョンモデルのための自己教師あり学習手法も議論されています。
- 「マイクロソフトの研究者が提案するMAIRA-1:胸部X線写真(CXR)から放射線報告書を生成するための放射線学専用マルチモーダルモデル」
- マイクロソフトとジョージア工科大学の研究者が、ヘッドウォーンデバイスを使用した多様な舌ジェスチャー認識技術「TongueTap」を紹介しました
- 「UCバークレーの研究者が開発したALIA:微細分類タスクのための自動言語ガイド画像拡張の画期的なブレイクスルー」
この研究では、行動複製フレームワークを用いてDobbEを訓練し、人間やエキスパートエージェントの振る舞いを模倣します。設計されたハードウェアセットアップにより、異なる家庭のデータ、iPhoneのオドメトリなどを活用してデモンストレーションの収集とロボットに転送がスムーズに行われます。基礎モデルはこのデータで事前学習されます。訓練されたモデルは実際の家庭でテストされ、視覚表現、必要なデモンストレーション、深度知覚、デモンストレータの専門知識、パラメトリックポリシーの必要性など、システムの異なるコンポーネントを評価するアブレーション実験が行われます。
DobbEは、5分のデモンストレーションと15分のHome Pretrained Representationsモデルの適応のみで、未知の家庭環境で81%の成功率を示しました。10の異なる家庭で30日間にわたって、DobbEは109のタスクのうち102を成功裏に学習し、ビジュアル表現にはResNetモデル、アクション予測には2層ニューラルネットワークなど、シンプルながらパワフルな方法の効果を証明しました。タスクの達成時間と難易度は回帰分析によって分析され、アブレーション実験ではグラフィカル表現やデモンストレータの専門知識など、異なるシステムコンポーネントが評価されました。
結論として、DobbEはさまざまな家庭環境でテストされた費用対効果の高い多目的なロボット操作システムで、驚異的な81%の成功率を示しました。DobbEチームは、システムのソフトウェアスタック、モデル、データ、ハードウェア設計を自由にオープンソース化し、家庭用ロボットの研究の推進とロボット執事の広範な普及を促進しています。DobbEの成功は、行動複製やアクション予測のための2層ニューラルネットワークなど、パワフルでシンプルな手法によるものです。実験はまた、照明条件や影がタスクの実行に影響を与える課題についての示唆も提供しました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- UCバークレーの研究者たちは、「RLIF」という強化学習方法を導入しましたこの方法は、対話型の模倣学習に非常に近い環境での介入から学ぶものです
- マイクロソフトの研究者がConfidential Consortium Framework (CCF)を紹介:セキュアな状態を持つCIAアプリケーションを開発するための汎用AIフレームワーク
- グーグルとUIUCの研究者は、単独でトレーニングされたスタイルとサブジェクトのLoRAをシームレスに統合するための革新的な人工知能手法であるZipLoRAを提案しています
- Google DeepMindの研究者がDiLoCoを導入:効果的かつ強靭な大規模言語モデルのトレーニングのための新しい分散型、低通信マシンラーニングアルゴリズム
- 『このAI研究は、IFPおよびリポソーム蓄積を予測するための物理ベースの深層学習を発表します』
- KAISTの研究者たちは、地面セグメンテーションを利用した堅牢なグローバル登録フレームワークであるQuatro++を導入しましたこれは、LiDAR SLAMにおけるループクロージングに利用されます
- 日本からの新しいAI研究は、人間の表情の機械的特性を調査し、アンドロイドが感情をより効果的に認識する方法を理解することを目指しています