このAIペーパーは動きがあります 「LaMo」ダンスステップとフューショットラーニングでオフライン強化学習に言語モデルがグルーブをきざむ方法

このAIペーパーが躍動感溢れる 「LaMo」ダンスステップとフューショットラーニングによるオフライン強化学習で言語モデルがグルーブをきざむ方法

研究者は、オフライン強化学習において、Large Language Models (LLMs)を用いたフレームワークである言語モデルモーションコントロール(LaMo)を紹介します。これは、事前学習済みのLLMsを利用してRLポリシー学習を強化し、LLMsを初期化したDecision Transformers(DT)とLoRA fine-tuningを用いるものです。LaMoは、スパースリワードタスクにおいて既存の手法を上回り、データサンプルが限られる密リワードタスクにおいて、値ベースのオフラインRLと意思決定トランスフォーマーとのギャップを縮めることで、特に優れた性能を発揮します。

現在の研究では、トランスフォーマー、特にDTとLLMsのシナジーをRLタスクの意思決定に応用しています。LLMsは以前に高レベルのタスク分解とポリシージェネレーションで有望な結果を示してきました。 LaMoは、モーションコントロールタスクにおいて事前学習済みのLLMsを活用する新しいフレームワークであり、スパースリワードシナリオで既存の手法を超え、値ベースのオフラインRLと意思決定トランスフォーマーとのギャップを縮めることを目指しています。Wiki-RLなどの先行研究に基づき、事前学習済みのLMをオフラインRLにより効果的に活用することを目指しています。

この手法は、RLを条件付きシーケンスモデリング問題として再構築しています。LaMoは、LLMsとDTを組み合わせることで既存の手法を上回り、LoRA fine-tuning、非線形MLPプロジェクション、および補助言語損失などの革新的な手法を導入しています。スパースリワードタスクにおいて卓越し、密リワードシナリオにおける値ベースおよびDTベースの手法のパフォーマンスギャップを縮めます。

オフライン強化学習のLaMoフレームワークでは、事前学習済みのLMとDTを組み合わせています。多層パーセプトロンを用いた表現学習を強化し、LoRA fine-tuningと補助言語予測損失を利用して、LMの知識を効果的に組み合わせます。さまざまなタスクと環境にわたる幅広い実験により、CQL、IQL、TD3BC、BC、DT、およびWiki-RLなどの強力なRLベースラインと比較して、データ比率の異なる状況でのパフォーマンスを評価します。

LaMoフレームワークは、スパースおよび密リワードタスクにおいてDecision TransformerとWiki-RLを凌ぎます。CQL、IQL、TD3BC、BC、およびDTを含むいくつかの強力なRLベースラインを上回り、過学習を回避します。LaMoは、事前学習済みのLMの帰納的バイアスにより、特にデータが限られた場合において堅牢な学習能力を示します。D4RLベンチマークの評価と徹底的な因果研究は、フレームワーク内の各コンポーネントの効果を確認します。

本研究では、完全チューニングの一般性を高めるための高レベルな表現学習技術の詳細な探索が必要です。計算上の制約により、ジョイントトレーニングなどの代替手法の検討は制限されています。 GPT-2、早期停止された事前学習済み、およびランダムにシャッフルされた事前学習済みモデルを比較することを超えて、事前学習LMの品質の異なる影響についてはまだ解決されていません。最新のパフォーマンスとベースラインの優越性を裏付けるためには、具体的な数値結果とパフォーマンスメトリクスが必要です。

まとめると、LaMoフレームワークはオフラインRLにおいて事前学習済みのLMをモーションコントロールに活用し、CQL、IQL、TD3BC、およびDTと比較してスパースリワードタスクで優れたパフォーマンスを実現しています。密リワードの研究において、値ベースの手法とDTベースの手法とのパフォーマンスギャップを縮めています。LaMoは少数の学習に優れており、事前学習済みのLMの帰納バイアスを活用しています。CQLの競争力や補助言語予測損失など、いくつかの制約がありますが、本研究はオフラインRLにおけるより大規模なLMのさらなる探求を促すことを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「関係深層学習ベンチマーク(RelBench)に出会ってください:関係データベース上の機械学習のためのリアルな、大規模で多様なベンチマークデータセットのコレクション」

人工知能(AI)と機械学習(ML)の急速な進歩の分野において、効果的で自動化され、適応性のある手法を見つけることは非常に...

データサイエンス

データから真実を解読する:大きな言語モデルが真実をモデル化するためにパーソナを使用する方法

大型言語モデル(LLM)の導入により、人工知能のサブフィールドである自然言語処理(NLP)は大幅に進化し改善されています。...

人工知能

「GPT4Readability — リードミーをもう一度書く必要はありません」

複雑なPythonのコードベースをナビゲートすることは、特にプロジェクトに十分なドキュメンテーションがない場合には困難なタ...

機械学習

「生成AIをめぐる旅」

私の豊富な経験に深く踏み込んで、全力でGenerative AIを受け入れ、あなたが利益を得るために活用できる貴重な洞察と知識を得...

データサイエンス

『自分のデータでChatGPTを訓練する方法:ソフトウェア開発者向けガイド』

「MEMWALKERとの対話型リーディングにより、AIモデルの強化が行われ、より豊かで文脈を理解した対話が可能となり、現代のAIの...

データサイエンス

公正を実現する:生成モデルにおけるバイアスの認識と解消

2021年、プリンストン大学の情報技術政策センターは、機械学習アルゴリズムが人間と同様の偏見を抱くことがあるという報告書...