このAIペーパーは動きがあります 「LaMo」ダンスステップとフューショットラーニングでオフライン強化学習に言語モデルがグルーブをきざむ方法

このAIペーパーが躍動感溢れる 「LaMo」ダンスステップとフューショットラーニングによるオフライン強化学習で言語モデルがグルーブをきざむ方法

研究者は、オフライン強化学習において、Large Language Models (LLMs)を用いたフレームワークである言語モデルモーションコントロール(LaMo)を紹介します。これは、事前学習済みのLLMsを利用してRLポリシー学習を強化し、LLMsを初期化したDecision Transformers(DT)とLoRA fine-tuningを用いるものです。LaMoは、スパースリワードタスクにおいて既存の手法を上回り、データサンプルが限られる密リワードタスクにおいて、値ベースのオフラインRLと意思決定トランスフォーマーとのギャップを縮めることで、特に優れた性能を発揮します。

現在の研究では、トランスフォーマー、特にDTとLLMsのシナジーをRLタスクの意思決定に応用しています。LLMsは以前に高レベルのタスク分解とポリシージェネレーションで有望な結果を示してきました。 LaMoは、モーションコントロールタスクにおいて事前学習済みのLLMsを活用する新しいフレームワークであり、スパースリワードシナリオで既存の手法を超え、値ベースのオフラインRLと意思決定トランスフォーマーとのギャップを縮めることを目指しています。Wiki-RLなどの先行研究に基づき、事前学習済みのLMをオフラインRLにより効果的に活用することを目指しています。

この手法は、RLを条件付きシーケンスモデリング問題として再構築しています。LaMoは、LLMsとDTを組み合わせることで既存の手法を上回り、LoRA fine-tuning、非線形MLPプロジェクション、および補助言語損失などの革新的な手法を導入しています。スパースリワードタスクにおいて卓越し、密リワードシナリオにおける値ベースおよびDTベースの手法のパフォーマンスギャップを縮めます。

オフライン強化学習のLaMoフレームワークでは、事前学習済みのLMとDTを組み合わせています。多層パーセプトロンを用いた表現学習を強化し、LoRA fine-tuningと補助言語予測損失を利用して、LMの知識を効果的に組み合わせます。さまざまなタスクと環境にわたる幅広い実験により、CQL、IQL、TD3BC、BC、DT、およびWiki-RLなどの強力なRLベースラインと比較して、データ比率の異なる状況でのパフォーマンスを評価します。

LaMoフレームワークは、スパースおよび密リワードタスクにおいてDecision TransformerとWiki-RLを凌ぎます。CQL、IQL、TD3BC、BC、およびDTを含むいくつかの強力なRLベースラインを上回り、過学習を回避します。LaMoは、事前学習済みのLMの帰納的バイアスにより、特にデータが限られた場合において堅牢な学習能力を示します。D4RLベンチマークの評価と徹底的な因果研究は、フレームワーク内の各コンポーネントの効果を確認します。

本研究では、完全チューニングの一般性を高めるための高レベルな表現学習技術の詳細な探索が必要です。計算上の制約により、ジョイントトレーニングなどの代替手法の検討は制限されています。 GPT-2、早期停止された事前学習済み、およびランダムにシャッフルされた事前学習済みモデルを比較することを超えて、事前学習LMの品質の異なる影響についてはまだ解決されていません。最新のパフォーマンスとベースラインの優越性を裏付けるためには、具体的な数値結果とパフォーマンスメトリクスが必要です。

まとめると、LaMoフレームワークはオフラインRLにおいて事前学習済みのLMをモーションコントロールに活用し、CQL、IQL、TD3BC、およびDTと比較してスパースリワードタスクで優れたパフォーマンスを実現しています。密リワードの研究において、値ベースの手法とDTベースの手法とのパフォーマンスギャップを縮めています。LaMoは少数の学習に優れており、事前学習済みのLMの帰納バイアスを活用しています。CQLの競争力や補助言語予測損失など、いくつかの制約がありますが、本研究はオフラインRLにおけるより大規模なLMのさらなる探求を促すことを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「大規模な言語モデルを使用した顧客調査フィードバック分析の強化」

はじめに 顧客フィードバック分析の世界へようこそ。顧客の意見の未探索の富は、ビジネスの成功を形作ることができます。今日...

データサイエンス

物議を醸している:GrokがOpenAIのコードを訓練に使用

Elon Muskの最新の事業は、生成AIベースのチャットボットGrokです。しかし、OpenAIのコードが訓練に使用されているという告発...

AI研究

初心者のための2023年の機械学習論文の読み方

「私は数十の機械学習の論文を読み、論文の勉強方法がだいたい分かってきました まず最初に、特定の論文を読む目的を理解する...

AIニュース

KubernetesでのGenAIアプリケーションの展開:ステップバイステップガイド

このガイドは、高い可用性のためにKubernetes上でGenAIアプリケーションを展開するための包括的で詳細な手順を提供します

機械学習

「新しいHADARベースのイメージングツールにより、暗闇でもクリアに見ることができます」

ロボットや自律型車両が最も暗い夜でも容易に移動できる世界を想像してみてください。それは熱シグナルを知覚するAIによって...

データサイエンス

「Pyroを使ったベイジアンABテスト」

この記事は、Pythonの確率プログラミング言語(PPL)であるPyroを使用したABテストの入門ですこれはPyMCの代替手段ですこの記...