スタンフォードの研究者がRoboFuMeを導入:最小限の人間の入力でロボットの学習を革新する

スタンフォードの研究者がRoboFuMeを導入:ロボットの学習を革新する新たな最小限人間入力の手法

機械学習を含む多くのドメインでは、タスク固有のモデルを学習するための広範な成功パラダイムとして、まず既存の多様な先行データセットから汎用モデルを事前トレーニングし、その後タスク固有のデータを少量追加してモデルを適応させることが一般的です。これはロボットの現実世界での学習にも魅力的であり、ロボット上でデータを収集することは高価ですが、既存のモデルを小規模なタスク固有データセットに対して微調整することで新しいタスクの学習のデータ効率を大幅に改善できます。オフライン強化学習を使用してポリシーを事前トレーニングし、オンライン強化学習で微調整することは、ロボット工学においてこのパラダイムを実装する自然な方法です。ただし、このレシピを実践する際には数多くの課題が発生します。

まず第一に、ロボットのプラットフォームに比べて、市販のロボットデータセットは頻繁に異なるオブジェクト、設置物の配置、カメラの視点、照明条件を使用します。事前トレーニングとオンライン微調整データの間に非自明な分布のシフトがあるため、ロボットポリシーの効果的な微調整は困難です。ほとんどの先行研究では、微調整と事前トレーニングの両方に同じハードウェアインスタンスを使用することがロボットの利点として強調されます。第二に、実際の世界でポリシーをトレーニングまたは微調整する際には、しばしば人間の監督が必要です。この監督は、試行の間に環境を手動でリセットし、報酬関数を設計することを含みます。

この研究では、これらの2つの問題に取り組み、最も少ない人間と時間を要する努力でロボットの微調整を可能にする実用的なフレームワークを提供します。過去数年間、効果的かつ自律的な強化学習アルゴリズムの開発においては大きな進展がありました。ただし、これらのシステムは人間の監督とさまざまなデモデータセットを学習することができますが、人間工学的なインセンティブメカニズムや手動の環境リセットの必要はありません。リセットフリー強化学習(RL)は、人間の手動による環境リセットの必要性を軽減するために一部の研究で提案された方法です。訓練中、エージェントはタスクポリシーとリセットポリシーの両方を交互に実行し、オンラインの経験を使用して両方を更新します。

ただし、これらの研究ではさまざまな商用ロボットデータセットを使用していません。これらの新しい技術は、微調整フェーズにおける人間の監督を最小化しようとするシステムに含まれていませんが、オフライン強化学習アルゴリズムの最近の進歩により、ポリシーはさまざまなオフラインデータを利用し、オンライン微調整を通じてさらに発展することが可能になりました。他の論文では、報酬予測モデルの学習が人間指定の報酬関数の必要性を代替できると提案していますが、実際のRL微調整環境でこれらのモデルの多くが壊れやすいことが判明しました。結論として、以前の研究は、効果的で人間不在のロボット学習のための機能的なシステムを構築するために必要な個々のコンポーネントを提供したにもかかわらず、どのコンポーネントがどのように組み立てられるかはまだ決定されていません。

スタンフォード大学の研究者たちは、ROBOFUMEというシステムを作成しました。このシステムは、オフラインデータセットのさまざまな利用とオンライン微調整を使用して、自律的で効果的な現実世界のロボット学習を実現します。このシステムは2つのステージで動作します。事前トレーニングフェーズでは、さまざまな先行データセット、対象タスクのサンプルの失敗観測の小規模なコレクション、いくつかのタスクのデモンストレーション、および対象タスクのリセットデモンストレーションにアクセスできることを前提とします。彼らはこのデータから言語条件付きのオフライン強化学習マルチタスク戦略を導出します。オンライン対話とオフライン対話の間の分布シフトを処理するために、異種なオフラインデータを効率的に処理できるアルゴリズムが必要です。

彼らは、キャリブレートされたオフライン強化学習技術により、事前訓練済みのポリシーがさまざまなオフラインデータを効率的に処理し、オフラインデータから学習したポリシーのQ値のスケールを修正し、予測された値を過小評価することで、オンライン微調整中に継続的に改善できることを発見しました。彼らは報酬エンジニアリングの必要性を排除するために報酬予測モデルを開発し、オンライン微調整フェーズが可能な限り少ない人間の入力で行われることを保証する必要があります。

彼らの巧妙なアプローチは、頑丈な事前トレーニング表現を提供するために大規模なビジョン言語モデル(VLM)を使用し、その後インドメインデータのわずかな量で微調整し、報酬分類シナリオに特化させることです。事前トレーニング済みのVLMは、インターネットの大規模な言語とビジュアルデータを使用して既にトレーニングされています。これにより、以前の取り組みで使用されたモデルと比較して、モデルは照明やカメラの配置の変化に対してより強力になります。微調整ステージでは、ロボットは実際の世界でポリシーを独立して調整し、タスクの完了を試行すると同時に環境を初期状態分布に復元します。一方、エージェントはスタンドイン報酬として事前トレーニング済みのVLMモデルを使用して手順を更新します。

彼らのフレームワークを評価するために、彼らはBridgeデータセットで事前学習し、その後、折りたたみや布を覆うなどのさまざまな下流の現実世界のタスクでテストします。彼らの戦略は、わずか3時間の対面指導で、オフラインのみのテクニックと比較して注目すべき利点を提供することを発見しています。シミュレーションシナリオでは、彼らは追加の定量試験を行って、彼らの戦略が模倣学習やオフライン強化学習手法よりも優れていることを示しています。これらの手法はオンラインで微調整しないか、過去のデータのバラエティを使用しない手法です。

初めに、以前のロボットデータセットからの事前学習を完全に自律的なシステムとし、最小限のリセットと学習済みの報酬ラベルを用いて不明の下流タスクへの微調整を行うことが彼らの主な貢献の一つです。さらに、訓練済みのビジョン・ランゲージモデルを改良し、それらを利用して下流の強化学習のための代替報酬を作成するテクニックを開発しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

エッジAIアプリケーションでのパフォーマンスを最大化する

この記事では、エッジAI展開におけるAIシステムのパフォーマンス最適化の戦略について概説します

機械学習

専門AIトレーニングの変革- LMFlowの紹介:優れたパフォーマンスのために大規模な基盤モデルを効率的に微調整し、個別化するための有望なツールキット

大規模言語モデル(LLMs)は、大規模な基盤モデルの上に構築されており、以前は不可能だったさまざまなタスクを実行する一般...

AIニュース

Amazon SageMakerで@remoteデコレータを使用してFalcon 7Bやその他のLLMを微調整する

今日、生成型AIモデルはテキスト要約、Q&A、画像やビデオの生成など、さまざまなタスクをカバーしています出力の品質を向...

人工知能

「スカイラインから街並みまで: SHoP Architectsが革新的なデザインを具体化する方法」

ニューヨーク市に拠点を置く建築会社、SHoP Architectsでは、機能する新興技術を取り入れることで業界のプロフェッショナルが...

機械学習

「ニューラルネットワークにおける記憶の解読イメージ分類のベンチマークにおけるモデルサイズ、記憶、および一般化への深い探求」

統計を学ぶためには、訓練データの暗記とテストサンプルへの転送をバランスさせる必要があります。しかし、過パラメータ化さ...

データサイエンス

「MITの研究者達が、シーン内の概念を理解するために機械学習モデルを支援するために、様々なシナリオを描いた画像の新しい注釈付き合成データセットを作成しました」

大規模な事前学習済みのビジョンと言語モデルは、数多くのアプリケーションで驚異的なパフォーマンスを発揮しており、固定さ...