『BOSSと出会ってください:新しい環境で新しい課題を解決するためにエージェントをトレーニングする強化学習(RL)フレームワーク、LLMガイダンス』

「新しい環境で新たな課題を解決するため、エージェントをトレーニングする強化学習(RL)フレームワーク『LLMガイダンス』をBOSSと出会ってください」

BOSS(Bootstrapping your own SkillS)をご紹介します。これは、大規模な言語モデルを活用して多様なスキルライブラリを自律的に構築し、複雑なタスクを最小限のガイダンスで解決する画期的な手法です。従来の非教示スキル習得技術や単純なブートストラップ手法と比較して、BOSSは未知の環境での見慣れないタスクの実行において優れた性能を発揮します。このイノベーションは自律的なスキル習得と応用における重要な進歩を示しています。

強化学習は、マルコフ決定過程において期待値の最大化を目指すためのポリシーの最適化を目指します。従来の研究では複雑なタスクのために事前学習された再利用可能なスキルが強化学習でパラメータ化されました。非教示強化学習は、好奇心、制御可能性、多様性を重視し、人間の介入なしにスキルを学習しました。言語はスキルのパラメータ化とオープンループの計画に使用されました。BOSSは大規模な言語モデルと共にスキルレパートリーを拡張し、探索をガイドし、スキルチェーンの完遂を報酬として与えることにより、長期的なタスクの実行においてより高い成功率を実現します。

従来のロボット学習は、監督が非常に重要ですが、人間は独自に複雑なタスクを学習することに優れています。研究者はBOSSをフレームワークとして導入し、最小限の人間介入で多様な長期的なスキルを自律的に習得するために使用しました。スキルのブートストラップによってガイドされ、大規模な言語モデル(LLM)の支援を受けて、BOSSは複雑なタスクを処理するためのスキルを進行的に構築し組み合わせます。非教示的な環境の相互作用により、新しい環境での困難なタスクの解決におけるポリシーの堅牢性が向上します。

BOSSは2つのフェーズからなるフレームワークを導入しています。第1フェーズでは、非教示強化学習の目標を使用して基礎的なスキルセットを習得します。第2フェーズでは、スキルチェーンのガイドとスキルの完了に基づく報酬によってスキルのブートストラップが行われます。このアプローチにより、エージェントは基本的なスキルから複雑な行動を構築することができます。家庭環境での実験では、LLMによるガイド付きブートストラッピングが、単純なブートストラッピングや従来の非教示的な方法よりも、新しい設定での見慣れない長期的なタスクの実行において優れた性能を発揮することが示されています。

実験の結果は、LLMによるガイド付きのBOSSは、新しい設定での拡張された家庭のタスクの解決において優れた性能を発揮し、従来のLLMベースの計画と非教示的な探索方法を上回ります。結果は、ALFRED評価におけるタスクの長さの異なるオラクル正規化されたリターンとオラクル正規化された成功率の四分位平均と標準偏差を示しています。LLMによるガイド付きのBOSSによるブートストラップトレーニングされたエージェントは、単純なブートストラッピングや以前の非教示的な方法を上回ります。BOSSは、基本的なスキルから多様な複雑な行動を自律的に習得することができ、エキスパートでないロボットのスキル習得の可能性を示しています。

LLMによってガイドされたBOSSフレームワークは、エキスパートのガイダンスなしで複雑なタスクを自律的に解決することに優れています。新しい環境で見慣れない機能を実行する際には、LLMによるガイド付きのブートストラッピングトレーニングされたエージェントが、単純なブートストラッピングや以前の非教示的な方法を上回ります。現実的な家庭での実験により、BOSSは基本的なスキルから多様な複雑な行動を習得する能力を示し、自律型ロボットスキル習得の可能性を強調しています。BOSSはまた、強化学習と自然言語理解を結びつける新たな可能性を示しており、ガイド付き学習のために事前学習された言語モデルを利用しています。

今後の研究の方向性には以下のものが含まれます:

  • 自律スキル学習のためのリセットフリー強化学習の調査。
  • BOSSのスキルチェーンアプローチによる長期的なタスクの分解の提案。
  • 低レベルなスキル習得のための非教示強化学習の拡張。

強化学習と自然言語理解の統合をBOSSフレームワークでさらに強化することも有望なアプローチです。BOSSをさまざまなドメインに適用し、さまざまな環境やタスクコンテキストでのパフォーマンスを評価することにより、さらなる探求の可能性を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

In Japanese キャプチャを超えて:近代的なボット対策におけるAIの進展の探求

この記事は、従来のCAPTCHAから最先端の身元確認へと進化していくデジタル防御戦略の実践を表しています

機械学習

「成功したプロンプトの構造の探索」

この記事では、著者がGPTConsoleのBirdとPixie AIエージェントのためのプログラマのハンドブックを読者に提供しています

AI研究

カールスルーエ工科大学(KIT)の研究者たちは、深層学習を用いた降水マッピングに取り組み、空間および時間の分解能向上に向けて進化させました

気候変動のため、特に激しい降水イベントがより頻繁に起こると予想されています。洪水や地滑りなどの多くの自然災害は、激し...

データサイエンス

「クレジットカードの不履行データセットのバイアスの検証と検出」

このセクションでは、クレジットカードのデフォルトデータセットにおけるバイアスについて探求し、若者と高齢者の借り手の間...

データサイエンス

学ぶための勇気: L1&L2正則化の解明(パート3)

「‘MLの学びへの勇気:L1とL2正則化の解読’ 第3回目にお帰りなさい前回は、正則化の目的について掘り下げ、L1とL2の方法を解...

データサイエンス

分散システム設計におけるコンセンサスアルゴリズムの役割の探索

この記事では、信頼性、データの一貫性、および耐障害性を確保する責任を負う人々の重要性と役割について探求します