このAIペーパーは動きがあります 「LaMo」ダンスステップとフューショットラーニングでオフライン強化学習に言語モデルがグルーブをきざむ方法

このAIペーパーが躍動感溢れる 「LaMo」ダンスステップとフューショットラーニングによるオフライン強化学習で言語モデルがグルーブをきざむ方法

研究者は、オフライン強化学習において、Large Language Models (LLMs)を用いたフレームワークである言語モデルモーションコントロール(LaMo)を紹介します。これは、事前学習済みのLLMsを利用してRLポリシー学習を強化し、LLMsを初期化したDecision Transformers(DT)とLoRA fine-tuningを用いるものです。LaMoは、スパースリワードタスクにおいて既存の手法を上回り、データサンプルが限られる密リワードタスクにおいて、値ベースのオフラインRLと意思決定トランスフォーマーとのギャップを縮めることで、特に優れた性能を発揮します。

現在の研究では、トランスフォーマー、特にDTとLLMsのシナジーをRLタスクの意思決定に応用しています。LLMsは以前に高レベルのタスク分解とポリシージェネレーションで有望な結果を示してきました。 LaMoは、モーションコントロールタスクにおいて事前学習済みのLLMsを活用する新しいフレームワークであり、スパースリワードシナリオで既存の手法を超え、値ベースのオフラインRLと意思決定トランスフォーマーとのギャップを縮めることを目指しています。Wiki-RLなどの先行研究に基づき、事前学習済みのLMをオフラインRLにより効果的に活用することを目指しています。

この手法は、RLを条件付きシーケンスモデリング問題として再構築しています。LaMoは、LLMsとDTを組み合わせることで既存の手法を上回り、LoRA fine-tuning、非線形MLPプロジェクション、および補助言語損失などの革新的な手法を導入しています。スパースリワードタスクにおいて卓越し、密リワードシナリオにおける値ベースおよびDTベースの手法のパフォーマンスギャップを縮めます。

オフライン強化学習のLaMoフレームワークでは、事前学習済みのLMとDTを組み合わせています。多層パーセプトロンを用いた表現学習を強化し、LoRA fine-tuningと補助言語予測損失を利用して、LMの知識を効果的に組み合わせます。さまざまなタスクと環境にわたる幅広い実験により、CQL、IQL、TD3BC、BC、DT、およびWiki-RLなどの強力なRLベースラインと比較して、データ比率の異なる状況でのパフォーマンスを評価します。

LaMoフレームワークは、スパースおよび密リワードタスクにおいてDecision TransformerとWiki-RLを凌ぎます。CQL、IQL、TD3BC、BC、およびDTを含むいくつかの強力なRLベースラインを上回り、過学習を回避します。LaMoは、事前学習済みのLMの帰納的バイアスにより、特にデータが限られた場合において堅牢な学習能力を示します。D4RLベンチマークの評価と徹底的な因果研究は、フレームワーク内の各コンポーネントの効果を確認します。

本研究では、完全チューニングの一般性を高めるための高レベルな表現学習技術の詳細な探索が必要です。計算上の制約により、ジョイントトレーニングなどの代替手法の検討は制限されています。 GPT-2、早期停止された事前学習済み、およびランダムにシャッフルされた事前学習済みモデルを比較することを超えて、事前学習LMの品質の異なる影響についてはまだ解決されていません。最新のパフォーマンスとベースラインの優越性を裏付けるためには、具体的な数値結果とパフォーマンスメトリクスが必要です。

まとめると、LaMoフレームワークはオフラインRLにおいて事前学習済みのLMをモーションコントロールに活用し、CQL、IQL、TD3BC、およびDTと比較してスパースリワードタスクで優れたパフォーマンスを実現しています。密リワードの研究において、値ベースの手法とDTベースの手法とのパフォーマンスギャップを縮めています。LaMoは少数の学習に優れており、事前学習済みのLMの帰納バイアスを活用しています。CQLの競争力や補助言語予測損失など、いくつかの制約がありますが、本研究はオフラインRLにおけるより大規模なLMのさらなる探求を促すことを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「マイクロソフトが初のAIチップ、Maia 100チップとコバルトCPUを公開」

Igniteカンファレンスでの画期的な動きにより、マイクロソフトは大いに期待されていたMaia 100チップとCobalt CPUを発表しま...

機械学習

アップステージがSolar-10.7Bを発表:一回の会話用に深いアップスケーリングと微調整された精度を持つ先駆的な大規模言語モデルを実現

韓国のAI企業、Upstageの研究者たちは、言語モデルのパフォーマンスを最大化し、パラメータを最小化するという課題に取り組ん...

データサイエンス

「LLMの評価にLLMを使用する」

ChatGPTには何百万もの異なる方法で行動するように頼むことができます栄養士や言語講師、医者などとしての役割も果たしますOp...

機械学習

「vLLMに会ってください:高速LLM推論とサービスのためのオープンソース機械学習ライブラリ」

大規模な言語モデル(LLM)は、プログラミングアシスタントやユニバーサルチャットボットなどの新しいアプリケーションを可能...

機械学習

「加速、効率的なAIシステムの新しいクラスがスーパーコンピューティングの次の時代を示す」

エヌビディアは、今日のSC23で、科学や産業の研究センターを新たなパフォーマンスとエネルギー効率のレベルに引き上げる次世...

機械学習

Google DeepMind(グーグルディープマインド)が「GNoME(グノーム)」を発表:新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール

無機結晶は、コンピュータチップ、バッテリー、太陽電池など、現代の多くの技術にとって不可欠です。安定した結晶は、細心の...