「夢を先に見て、後で学ぶ:DECKARDは強化学習(RL)エージェントのトレーニングにLLMsを使用するAIアプローチです」
DECKARDは強化学習エージェントのトレーニングにLLMsを使用するAIアプローチです
強化学習(RL)は、環境との相互作用によって複雑なタスクを実行することを学ぶことができる自律エージェントの訓練手法です。RLにより、エージェントは異なる状況で最適な行動を学び、報酬システムを使用して環境に適応することができます。
RLにおける主な課題は、多くの現実世界の問題の広範な状態空間を効率的に探索する方法です。この課題は、RLにおいてエージェントが探索を通じて環境との相互作用によって学習するために生じます。マインクラフトをプレイしようとするエージェントを考えてみてください。以前に聞いたことがある場合、マインクラフトのクラフトツリーがどれだけ複雑であるかを知っているはずです。数百のクラフト可能なオブジェクトがあり、一つを作るためには別のものを作る必要があるかもしれません。つまり、非常に複雑な環境です。
環境が多数の可能な状態と行動を持つ場合、ランダムな探索だけでは最適な方策を見つけることが困難になることがあります。エージェントは、現在の最適な方策を活用することと、状態空間の新しい部分を探索してより良い方策を見つけることとのバランスを取る必要があります。探索と活用をバランス良く行う効果的な探索方法を見つけることは、RLの研究の活発な分野です。
- 「トランスフォーマベースのLLMがパラメータから知識を抽出する方法」
- 「TR0Nに会ってください:事前学習済み生成モデルに任意のコンディショニングを追加するためのシンプルで効率的な方法」
- 「合成キャプションはマルチモーダルトレーニングに役立つのか?このAI論文は、合成キャプションがマルチモーダルトレーニングにおけるキャプションの品質向上に効果的であることを示しています」
実用的な意思決定システムは、タスクに関する事前知識を効果的に利用する必要があることが知られています。タスク自体に関する事前情報を持つことにより、エージェントは方策を適応させることができ、サブオプティマルな方策に陥るのを回避することができます。しかし、現在のほとんどの強化学習手法は、事前のトレーニングや外部の知識なしで訓練されています。
では、なぜそうなのでしょうか?近年、大規模な言語モデル(LLM)を使用してRLエージェントを探索のために支援することに関心が高まっています。このアプローチは有望な結果を示していますが、環境におけるLLMの知識の具体化やLLMの出力の正確さといった多くの課題がまだ残されています。
では、RLエージェントの支援にLLMを使用するのを諦めるべきでしょうか?もしそうでない場合、どのようにしてこれらの問題を解決し、再びLLMを使用してRLエージェントをガイドすることができるのでしょうか?その答えは名前があり、それはDECKARDです。
DECKARDは、マインクラフト向けに訓練されています。マインクラフトで特定のアイテムを作成することは、ゲームの専門知識がなければ難しい課題となり得ます。これは、ゲーム内の目標を達成することが、密な報酬や専門家のデモンストレーションを使用することで容易になることを示した研究によって実証されています。その結果、マインクラフトにおけるアイテムの作成は、AIの分野において持続的な課題となっています。
DECKARDは、大規模な言語モデル(LLM)に対してフューショットプロンプティング技術を使用してサブゴールのための抽象的なワールドモデル(AWM)を生成します。LLMを使用して、タスクとその解決手順について仮説を立てます。その後、実際の環境でモジュラーポリシーを学習し、夢見る間に生成されたサブゴールのポリシーを生成します。これにより、DECKARDは仮説を検証することができます。AWMは起床フェーズで修正され、発見されたノードは将来再利用するために検証済みとマークされます。
実験によれば、LLMのガイダンスはDECKARDの探索において重要であり、LLMのガイダンスなしのバージョンのエージェントは、オープンエンドの探索中にアイテムを作るのに2倍以上の時間がかかります。特定のタスクを探索する際、DECKARDは比較可能なエージェントと比べて数桁以上のサンプル効率を改善し、LLMをRLに堅牢に適用する可能性を示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「もしも、視覚のみのモデルを、わずかな未ラベル化画像を使って線形層のみを訓練することで、ビジョン言語モデル(VLM)に変換できたらどうでしょうか? テキストから概念へ(そしてその逆)のクロスモデルアラインメントによる、Text-to-Conceptの紹介」
- 「LogAIとお会いしましょう:ログ分析と知能のために設計されたオープンソースライブラリ」
- 「最も適応能力の高い生存者 コンパクトな生成型AIモデルは、コスト効率の高い大規模AIの未来です」
- 「17/7から23/7までのトップコンピュータビジョン論文」
- 「大規模言語モデルのための任意のPDFおよび画像からテキストを抽出する方法」
- LangChain 101 パート1. シンプルなQ&Aアプリの構築
- 「Brain2Musicに会ってください:機能的磁気共鳴画像法(fMRI)を用いた脳活動から音楽を再構築するためのAI手法」