スタンフォードの研究者がRoboFuMeを導入:最小限の人間の入力でロボットの学習を革新する
スタンフォードの研究者がRoboFuMeを導入:ロボットの学習を革新する新たな最小限人間入力の手法
機械学習を含む多くのドメインでは、タスク固有のモデルを学習するための広範な成功パラダイムとして、まず既存の多様な先行データセットから汎用モデルを事前トレーニングし、その後タスク固有のデータを少量追加してモデルを適応させることが一般的です。これはロボットの現実世界での学習にも魅力的であり、ロボット上でデータを収集することは高価ですが、既存のモデルを小規模なタスク固有データセットに対して微調整することで新しいタスクの学習のデータ効率を大幅に改善できます。オフライン強化学習を使用してポリシーを事前トレーニングし、オンライン強化学習で微調整することは、ロボット工学においてこのパラダイムを実装する自然な方法です。ただし、このレシピを実践する際には数多くの課題が発生します。
まず第一に、ロボットのプラットフォームに比べて、市販のロボットデータセットは頻繁に異なるオブジェクト、設置物の配置、カメラの視点、照明条件を使用します。事前トレーニングとオンライン微調整データの間に非自明な分布のシフトがあるため、ロボットポリシーの効果的な微調整は困難です。ほとんどの先行研究では、微調整と事前トレーニングの両方に同じハードウェアインスタンスを使用することがロボットの利点として強調されます。第二に、実際の世界でポリシーをトレーニングまたは微調整する際には、しばしば人間の監督が必要です。この監督は、試行の間に環境を手動でリセットし、報酬関数を設計することを含みます。
この研究では、これらの2つの問題に取り組み、最も少ない人間と時間を要する努力でロボットの微調整を可能にする実用的なフレームワークを提供します。過去数年間、効果的かつ自律的な強化学習アルゴリズムの開発においては大きな進展がありました。ただし、これらのシステムは人間の監督とさまざまなデモデータセットを学習することができますが、人間工学的なインセンティブメカニズムや手動の環境リセットの必要はありません。リセットフリー強化学習(RL)は、人間の手動による環境リセットの必要性を軽減するために一部の研究で提案された方法です。訓練中、エージェントはタスクポリシーとリセットポリシーの両方を交互に実行し、オンラインの経験を使用して両方を更新します。
- マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました
- この中国のAI研究は、マルチモーダルな大規模言語モデル(MLLMs)の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します
- UC San Diegoの研究者DYffusion:空間的時間予測のためのダイナミクスに基づく拡散モデル
ただし、これらの研究ではさまざまな商用ロボットデータセットを使用していません。これらの新しい技術は、微調整フェーズにおける人間の監督を最小化しようとするシステムに含まれていませんが、オフライン強化学習アルゴリズムの最近の進歩により、ポリシーはさまざまなオフラインデータを利用し、オンライン微調整を通じてさらに発展することが可能になりました。他の論文では、報酬予測モデルの学習が人間指定の報酬関数の必要性を代替できると提案していますが、実際のRL微調整環境でこれらのモデルの多くが壊れやすいことが判明しました。結論として、以前の研究は、効果的で人間不在のロボット学習のための機能的なシステムを構築するために必要な個々のコンポーネントを提供したにもかかわらず、どのコンポーネントがどのように組み立てられるかはまだ決定されていません。
スタンフォード大学の研究者たちは、ROBOFUMEというシステムを作成しました。このシステムは、オフラインデータセットのさまざまな利用とオンライン微調整を使用して、自律的で効果的な現実世界のロボット学習を実現します。このシステムは2つのステージで動作します。事前トレーニングフェーズでは、さまざまな先行データセット、対象タスクのサンプルの失敗観測の小規模なコレクション、いくつかのタスクのデモンストレーション、および対象タスクのリセットデモンストレーションにアクセスできることを前提とします。彼らはこのデータから言語条件付きのオフライン強化学習マルチタスク戦略を導出します。オンライン対話とオフライン対話の間の分布シフトを処理するために、異種なオフラインデータを効率的に処理できるアルゴリズムが必要です。
彼らは、キャリブレートされたオフライン強化学習技術により、事前訓練済みのポリシーがさまざまなオフラインデータを効率的に処理し、オフラインデータから学習したポリシーのQ値のスケールを修正し、予測された値を過小評価することで、オンライン微調整中に継続的に改善できることを発見しました。彼らは報酬エンジニアリングの必要性を排除するために報酬予測モデルを開発し、オンライン微調整フェーズが可能な限り少ない人間の入力で行われることを保証する必要があります。
彼らの巧妙なアプローチは、頑丈な事前トレーニング表現を提供するために大規模なビジョン言語モデル(VLM)を使用し、その後インドメインデータのわずかな量で微調整し、報酬分類シナリオに特化させることです。事前トレーニング済みのVLMは、インターネットの大規模な言語とビジュアルデータを使用して既にトレーニングされています。これにより、以前の取り組みで使用されたモデルと比較して、モデルは照明やカメラの配置の変化に対してより強力になります。微調整ステージでは、ロボットは実際の世界でポリシーを独立して調整し、タスクの完了を試行すると同時に環境を初期状態分布に復元します。一方、エージェントはスタンドイン報酬として事前トレーニング済みのVLMモデルを使用して手順を更新します。
彼らのフレームワークを評価するために、彼らはBridgeデータセットで事前学習し、その後、折りたたみや布を覆うなどのさまざまな下流の現実世界のタスクでテストします。彼らの戦略は、わずか3時間の対面指導で、オフラインのみのテクニックと比較して注目すべき利点を提供することを発見しています。シミュレーションシナリオでは、彼らは追加の定量試験を行って、彼らの戦略が模倣学習やオフライン強化学習手法よりも優れていることを示しています。これらの手法はオンラインで微調整しないか、過去のデータのバラエティを使用しない手法です。
初めに、以前のロボットデータセットからの事前学習を完全に自律的なシステムとし、最小限のリセットと学習済みの報酬ラベルを用いて不明の下流タスクへの微調整を行うことが彼らの主な貢献の一つです。さらに、訓練済みのビジョン・ランゲージモデルを改良し、それらを利用して下流の強化学習のための代替報酬を作成するテクニックを開発しました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「研究者たちが量子エレクトロニクスの切り替えを簡素化する」
- 「このチューリング賞受賞者が伝説的な学術アドバイザーになった経緯」
- Appleの研究者がマトリョーシカ拡散モデル(MDM)を紹介する:高解像度の画像とビデオの合成のためのエンドツーエンドの人工知能フレームワーク
- 中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです
- UCバークレーとスタンフォード大学の研究者が、複数の教師からの報酬を学習するための人工知能フレームワークである「Hidden Utility Bandit(HUB)」を紹介しました
- スタンフォードの研究者たちは、「EquivAct」というロボット学習における画期的な提案を行いましたこの提案は、異なる規模や方向でのタスクを一般化するためのものです
- UC San Diegoの研究者がTD-MPC2を発表:多様な領域でのモデルベースの強化学習の革命化