『BOSSと出会ってください:新しい環境で新しい課題を解決するためにエージェントをトレーニングする強化学習(RL)フレームワーク、LLMガイダンス』

「新しい環境で新たな課題を解決するため、エージェントをトレーニングする強化学習(RL)フレームワーク『LLMガイダンス』をBOSSと出会ってください」

BOSS(Bootstrapping your own SkillS)をご紹介します。これは、大規模な言語モデルを活用して多様なスキルライブラリを自律的に構築し、複雑なタスクを最小限のガイダンスで解決する画期的な手法です。従来の非教示スキル習得技術や単純なブートストラップ手法と比較して、BOSSは未知の環境での見慣れないタスクの実行において優れた性能を発揮します。このイノベーションは自律的なスキル習得と応用における重要な進歩を示しています。

強化学習は、マルコフ決定過程において期待値の最大化を目指すためのポリシーの最適化を目指します。従来の研究では複雑なタスクのために事前学習された再利用可能なスキルが強化学習でパラメータ化されました。非教示強化学習は、好奇心、制御可能性、多様性を重視し、人間の介入なしにスキルを学習しました。言語はスキルのパラメータ化とオープンループの計画に使用されました。BOSSは大規模な言語モデルと共にスキルレパートリーを拡張し、探索をガイドし、スキルチェーンの完遂を報酬として与えることにより、長期的なタスクの実行においてより高い成功率を実現します。

従来のロボット学習は、監督が非常に重要ですが、人間は独自に複雑なタスクを学習することに優れています。研究者はBOSSをフレームワークとして導入し、最小限の人間介入で多様な長期的なスキルを自律的に習得するために使用しました。スキルのブートストラップによってガイドされ、大規模な言語モデル(LLM)の支援を受けて、BOSSは複雑なタスクを処理するためのスキルを進行的に構築し組み合わせます。非教示的な環境の相互作用により、新しい環境での困難なタスクの解決におけるポリシーの堅牢性が向上します。

BOSSは2つのフェーズからなるフレームワークを導入しています。第1フェーズでは、非教示強化学習の目標を使用して基礎的なスキルセットを習得します。第2フェーズでは、スキルチェーンのガイドとスキルの完了に基づく報酬によってスキルのブートストラップが行われます。このアプローチにより、エージェントは基本的なスキルから複雑な行動を構築することができます。家庭環境での実験では、LLMによるガイド付きブートストラッピングが、単純なブートストラッピングや従来の非教示的な方法よりも、新しい設定での見慣れない長期的なタスクの実行において優れた性能を発揮することが示されています。

実験の結果は、LLMによるガイド付きのBOSSは、新しい設定での拡張された家庭のタスクの解決において優れた性能を発揮し、従来のLLMベースの計画と非教示的な探索方法を上回ります。結果は、ALFRED評価におけるタスクの長さの異なるオラクル正規化されたリターンとオラクル正規化された成功率の四分位平均と標準偏差を示しています。LLMによるガイド付きのBOSSによるブートストラップトレーニングされたエージェントは、単純なブートストラッピングや以前の非教示的な方法を上回ります。BOSSは、基本的なスキルから多様な複雑な行動を自律的に習得することができ、エキスパートでないロボットのスキル習得の可能性を示しています。

LLMによってガイドされたBOSSフレームワークは、エキスパートのガイダンスなしで複雑なタスクを自律的に解決することに優れています。新しい環境で見慣れない機能を実行する際には、LLMによるガイド付きのブートストラッピングトレーニングされたエージェントが、単純なブートストラッピングや以前の非教示的な方法を上回ります。現実的な家庭での実験により、BOSSは基本的なスキルから多様な複雑な行動を習得する能力を示し、自律型ロボットスキル習得の可能性を強調しています。BOSSはまた、強化学習と自然言語理解を結びつける新たな可能性を示しており、ガイド付き学習のために事前学習された言語モデルを利用しています。

今後の研究の方向性には以下のものが含まれます:

  • 自律スキル学習のためのリセットフリー強化学習の調査。
  • BOSSのスキルチェーンアプローチによる長期的なタスクの分解の提案。
  • 低レベルなスキル習得のための非教示強化学習の拡張。

強化学習と自然言語理解の統合をBOSSフレームワークでさらに強化することも有望なアプローチです。BOSSをさまざまなドメインに適用し、さまざまな環境やタスクコンテキストでのパフォーマンスを評価することにより、さらなる探求の可能性を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

新たなディープ強化学習(DRL)フレームワークは、シミュレートされた環境で攻撃者に対応し、サイバー攻撃がエスカレートする前に95%をブロックすることができます

サイバーセキュリティの防御者は、技術の発展とシステムの複雑さのレベルが上昇するにつれて、自分たちの技術と戦術を動的に...

データサイエンス

Zipperを使用してサーバーレスアプリを高速に構築:TypeScriptで記述し、その他のすべてをオフロードする

「Ruby on Railsの良い思い出を振り返った後、私はZipperプラットフォームを発見し、どれだけ速く価値あるものを作れるかを試...

AIニュース

スケーリングダウン、スケーリングアップ:モデルの量子化での生成AIのマスタリング

紹介 人工知能の進化する風景の中で、生成型AIは確実に革新の中核となってきました。これらの高度なモデルは、芸術の創造、テ...

機械学習

「PDF、txt、そしてウェブページとして、あなたのドキュメントと話しましょう」

LLMsを使用してPDF、TXT、さらにはウェブページなどのドキュメントに質問をすることができるウェブと知能を作成するための完...

機械学習

再帰型ニューラルネットワークの基礎からの説明と視覚化

再帰型ニューラルネットワーク(RNN)は、順次操作が可能なニューラルネットワークです数年前ほど人気はありませんが、重要な発...

データサイエンス

情報とエントロピー

1948年、数学者のクロード・E・シャノンが「通信の数学的理論」という記事を発表し、機械学習における重要な概念であるエント...