『BOSSと出会ってください:新しい環境で新しい課題を解決するためにエージェントをトレーニングする強化学習(RL)フレームワーク、LLMガイダンス』

「新しい環境で新たな課題を解決するため、エージェントをトレーニングする強化学習(RL)フレームワーク『LLMガイダンス』をBOSSと出会ってください」

BOSS(Bootstrapping your own SkillS)をご紹介します。これは、大規模な言語モデルを活用して多様なスキルライブラリを自律的に構築し、複雑なタスクを最小限のガイダンスで解決する画期的な手法です。従来の非教示スキル習得技術や単純なブートストラップ手法と比較して、BOSSは未知の環境での見慣れないタスクの実行において優れた性能を発揮します。このイノベーションは自律的なスキル習得と応用における重要な進歩を示しています。

強化学習は、マルコフ決定過程において期待値の最大化を目指すためのポリシーの最適化を目指します。従来の研究では複雑なタスクのために事前学習された再利用可能なスキルが強化学習でパラメータ化されました。非教示強化学習は、好奇心、制御可能性、多様性を重視し、人間の介入なしにスキルを学習しました。言語はスキルのパラメータ化とオープンループの計画に使用されました。BOSSは大規模な言語モデルと共にスキルレパートリーを拡張し、探索をガイドし、スキルチェーンの完遂を報酬として与えることにより、長期的なタスクの実行においてより高い成功率を実現します。

従来のロボット学習は、監督が非常に重要ですが、人間は独自に複雑なタスクを学習することに優れています。研究者はBOSSをフレームワークとして導入し、最小限の人間介入で多様な長期的なスキルを自律的に習得するために使用しました。スキルのブートストラップによってガイドされ、大規模な言語モデル(LLM)の支援を受けて、BOSSは複雑なタスクを処理するためのスキルを進行的に構築し組み合わせます。非教示的な環境の相互作用により、新しい環境での困難なタスクの解決におけるポリシーの堅牢性が向上します。

BOSSは2つのフェーズからなるフレームワークを導入しています。第1フェーズでは、非教示強化学習の目標を使用して基礎的なスキルセットを習得します。第2フェーズでは、スキルチェーンのガイドとスキルの完了に基づく報酬によってスキルのブートストラップが行われます。このアプローチにより、エージェントは基本的なスキルから複雑な行動を構築することができます。家庭環境での実験では、LLMによるガイド付きブートストラッピングが、単純なブートストラッピングや従来の非教示的な方法よりも、新しい設定での見慣れない長期的なタスクの実行において優れた性能を発揮することが示されています。

実験の結果は、LLMによるガイド付きのBOSSは、新しい設定での拡張された家庭のタスクの解決において優れた性能を発揮し、従来のLLMベースの計画と非教示的な探索方法を上回ります。結果は、ALFRED評価におけるタスクの長さの異なるオラクル正規化されたリターンとオラクル正規化された成功率の四分位平均と標準偏差を示しています。LLMによるガイド付きのBOSSによるブートストラップトレーニングされたエージェントは、単純なブートストラッピングや以前の非教示的な方法を上回ります。BOSSは、基本的なスキルから多様な複雑な行動を自律的に習得することができ、エキスパートでないロボットのスキル習得の可能性を示しています。

LLMによってガイドされたBOSSフレームワークは、エキスパートのガイダンスなしで複雑なタスクを自律的に解決することに優れています。新しい環境で見慣れない機能を実行する際には、LLMによるガイド付きのブートストラッピングトレーニングされたエージェントが、単純なブートストラッピングや以前の非教示的な方法を上回ります。現実的な家庭での実験により、BOSSは基本的なスキルから多様な複雑な行動を習得する能力を示し、自律型ロボットスキル習得の可能性を強調しています。BOSSはまた、強化学習と自然言語理解を結びつける新たな可能性を示しており、ガイド付き学習のために事前学習された言語モデルを利用しています。

今後の研究の方向性には以下のものが含まれます:

  • 自律スキル学習のためのリセットフリー強化学習の調査。
  • BOSSのスキルチェーンアプローチによる長期的なタスクの分解の提案。
  • 低レベルなスキル習得のための非教示強化学習の拡張。

強化学習と自然言語理解の統合をBOSSフレームワークでさらに強化することも有望なアプローチです。BOSSをさまざまなドメインに適用し、さまざまな環境やタスクコンテキストでのパフォーマンスを評価することにより、さらなる探求の可能性を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「HeyGenを使ってリアルなAI生成アバターを作る方法」

このAIによるアバターツールは非常に先進的であり、人々はそれが本物か偽物か判断できません

機械学習

この人工知能論文は、画像認識における差分プライバシーの高度な手法を提案し、より高い精度をもたらします

機械学習は、近年のパフォーマンスにより、さまざまな領域で大幅に増加しました。現代のコンピュータの計算能力とグラフィッ...

データサイエンス

エッジMLのタイプとエンタープライズのユースケース

エッジマシンラーニングにより、デバイスはAIのタスクをローカルで実行することができ、結果的に待ち時間が短縮され、データ...

機械学習

量子AI:量子コンピューティングの潜在能力を機械学習で解き明かす

この記事では、量子機械学習について、現在の課題、機会、評価、成熟度、およびタイムリーさについて、読者がより詳しく学ぶ...

機械学習

「プリズマーに会いましょう:専門家のアンサンブルを持つオープンソースのビジョン-言語モデル」

最近の多くのビジョン言語モデルは、非常に注目すべき多様な生成能力を示しています。しかし、通常、それらは膨大なモデルと...

AI研究

「IBMの「脳のような」AIチップが、環境にやさしく効率的な未来を約束します」

興味深い進展として、テクノロジー巨人IBMが人工知能(AI)の世界を革新するかもしれない「脳のような」チップのプロトタイプ...