スタンフォードの研究者がRoboFuMeを導入:最小限の人間の入力でロボットの学習を革新する

スタンフォードの研究者がRoboFuMeを導入:ロボットの学習を革新する新たな最小限人間入力の手法

機械学習を含む多くのドメインでは、タスク固有のモデルを学習するための広範な成功パラダイムとして、まず既存の多様な先行データセットから汎用モデルを事前トレーニングし、その後タスク固有のデータを少量追加してモデルを適応させることが一般的です。これはロボットの現実世界での学習にも魅力的であり、ロボット上でデータを収集することは高価ですが、既存のモデルを小規模なタスク固有データセットに対して微調整することで新しいタスクの学習のデータ効率を大幅に改善できます。オフライン強化学習を使用してポリシーを事前トレーニングし、オンライン強化学習で微調整することは、ロボット工学においてこのパラダイムを実装する自然な方法です。ただし、このレシピを実践する際には数多くの課題が発生します。

まず第一に、ロボットのプラットフォームに比べて、市販のロボットデータセットは頻繁に異なるオブジェクト、設置物の配置、カメラの視点、照明条件を使用します。事前トレーニングとオンライン微調整データの間に非自明な分布のシフトがあるため、ロボットポリシーの効果的な微調整は困難です。ほとんどの先行研究では、微調整と事前トレーニングの両方に同じハードウェアインスタンスを使用することがロボットの利点として強調されます。第二に、実際の世界でポリシーをトレーニングまたは微調整する際には、しばしば人間の監督が必要です。この監督は、試行の間に環境を手動でリセットし、報酬関数を設計することを含みます。

この研究では、これらの2つの問題に取り組み、最も少ない人間と時間を要する努力でロボットの微調整を可能にする実用的なフレームワークを提供します。過去数年間、効果的かつ自律的な強化学習アルゴリズムの開発においては大きな進展がありました。ただし、これらのシステムは人間の監督とさまざまなデモデータセットを学習することができますが、人間工学的なインセンティブメカニズムや手動の環境リセットの必要はありません。リセットフリー強化学習(RL)は、人間の手動による環境リセットの必要性を軽減するために一部の研究で提案された方法です。訓練中、エージェントはタスクポリシーとリセットポリシーの両方を交互に実行し、オンラインの経験を使用して両方を更新します。

ただし、これらの研究ではさまざまな商用ロボットデータセットを使用していません。これらの新しい技術は、微調整フェーズにおける人間の監督を最小化しようとするシステムに含まれていませんが、オフライン強化学習アルゴリズムの最近の進歩により、ポリシーはさまざまなオフラインデータを利用し、オンライン微調整を通じてさらに発展することが可能になりました。他の論文では、報酬予測モデルの学習が人間指定の報酬関数の必要性を代替できると提案していますが、実際のRL微調整環境でこれらのモデルの多くが壊れやすいことが判明しました。結論として、以前の研究は、効果的で人間不在のロボット学習のための機能的なシステムを構築するために必要な個々のコンポーネントを提供したにもかかわらず、どのコンポーネントがどのように組み立てられるかはまだ決定されていません。

スタンフォード大学の研究者たちは、ROBOFUMEというシステムを作成しました。このシステムは、オフラインデータセットのさまざまな利用とオンライン微調整を使用して、自律的で効果的な現実世界のロボット学習を実現します。このシステムは2つのステージで動作します。事前トレーニングフェーズでは、さまざまな先行データセット、対象タスクのサンプルの失敗観測の小規模なコレクション、いくつかのタスクのデモンストレーション、および対象タスクのリセットデモンストレーションにアクセスできることを前提とします。彼らはこのデータから言語条件付きのオフライン強化学習マルチタスク戦略を導出します。オンライン対話とオフライン対話の間の分布シフトを処理するために、異種なオフラインデータを効率的に処理できるアルゴリズムが必要です。

彼らは、キャリブレートされたオフライン強化学習技術により、事前訓練済みのポリシーがさまざまなオフラインデータを効率的に処理し、オフラインデータから学習したポリシーのQ値のスケールを修正し、予測された値を過小評価することで、オンライン微調整中に継続的に改善できることを発見しました。彼らは報酬エンジニアリングの必要性を排除するために報酬予測モデルを開発し、オンライン微調整フェーズが可能な限り少ない人間の入力で行われることを保証する必要があります。

彼らの巧妙なアプローチは、頑丈な事前トレーニング表現を提供するために大規模なビジョン言語モデル(VLM)を使用し、その後インドメインデータのわずかな量で微調整し、報酬分類シナリオに特化させることです。事前トレーニング済みのVLMは、インターネットの大規模な言語とビジュアルデータを使用して既にトレーニングされています。これにより、以前の取り組みで使用されたモデルと比較して、モデルは照明やカメラの配置の変化に対してより強力になります。微調整ステージでは、ロボットは実際の世界でポリシーを独立して調整し、タスクの完了を試行すると同時に環境を初期状態分布に復元します。一方、エージェントはスタンドイン報酬として事前トレーニング済みのVLMモデルを使用して手順を更新します。

彼らのフレームワークを評価するために、彼らはBridgeデータセットで事前学習し、その後、折りたたみや布を覆うなどのさまざまな下流の現実世界のタスクでテストします。彼らの戦略は、わずか3時間の対面指導で、オフラインのみのテクニックと比較して注目すべき利点を提供することを発見しています。シミュレーションシナリオでは、彼らは追加の定量試験を行って、彼らの戦略が模倣学習やオフライン強化学習手法よりも優れていることを示しています。これらの手法はオンラインで微調整しないか、過去のデータのバラエティを使用しない手法です。

初めに、以前のロボットデータセットからの事前学習を完全に自律的なシステムとし、最小限のリセットと学習済みの報酬ラベルを用いて不明の下流タスクへの微調整を行うことが彼らの主な貢献の一つです。さらに、訓練済みのビジョン・ランゲージモデルを改良し、それらを利用して下流の強化学習のための代替報酬を作成するテクニックを開発しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します:拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです

機械学習において、拡散モデルは画像や音声生成のタスクによく使われる生成モデルです。拡散モデルは、複雑なデータ分布をよ...

機械学習

感情の解読:EmoTXによる感情と心の状態の明らかにする、新しいTransformer-Powered AIフレームワーク

映画は物語や感情の中でも最も芸術的な表現の一つです。たとえば、「ハッピネスの追求」では、主人公が別れやホームレスなど...

データサイエンス

「ConDistFLとの出会い:CTデータセットにおける臓器と疾患のセグメンテーションのための革新的なフェデレーテッドラーニング手法」

コンピュータ支援診断や治療計画などの臨床応用のために、コンピュータ断層撮影(CT)画像は腹部臓器と腫瘍を正確にセグメン...

AIニュース

「開発者向けの15以上のAIツール(2023年9月)」

GitHub Copilot GitHub Copilotは、市場をリードするAIパワードのコーディングアシスタントです。開発者がより効率的に優れた...

AIニュース

中国の強力なNvidia AIチップの隠れた市場

深圳華強北電子區的繁華街道之中,一個高端 Nvidia AI 芯片的地下市場悄然興起。這個隱蔽的世界在出口限制和對這些尖端處理器...

AI研究

「Google DeepMind Researchがニューラルネットワークにおける理解現象の謎を探求:記憶と一般化の相互作用を明らかにする」

ニューラルネットワークが学習し一般化するという従来の理論は、ニューラルネットワークの中でのグロッキングの発生によって...