「夢を先に見て、後で学ぶ:DECKARDは強化学習(RL)エージェントのトレーニングにLLMsを使用するAIアプローチです」

DECKARDは強化学習エージェントのトレーニングにLLMsを使用するAIアプローチです

強化学習(RL)は、環境との相互作用によって複雑なタスクを実行することを学ぶことができる自律エージェントの訓練手法です。RLにより、エージェントは異なる状況で最適な行動を学び、報酬システムを使用して環境に適応することができます。

RLにおける主な課題は、多くの現実世界の問題の広範な状態空間を効率的に探索する方法です。この課題は、RLにおいてエージェントが探索を通じて環境との相互作用によって学習するために生じます。マインクラフトをプレイしようとするエージェントを考えてみてください。以前に聞いたことがある場合、マインクラフトのクラフトツリーがどれだけ複雑であるかを知っているはずです。数百のクラフト可能なオブジェクトがあり、一つを作るためには別のものを作る必要があるかもしれません。つまり、非常に複雑な環境です。

環境が多数の可能な状態と行動を持つ場合、ランダムな探索だけでは最適な方策を見つけることが困難になることがあります。エージェントは、現在の最適な方策を活用することと、状態空間の新しい部分を探索してより良い方策を見つけることとのバランスを取る必要があります。探索と活用をバランス良く行う効果的な探索方法を見つけることは、RLの研究の活発な分野です。

実用的な意思決定システムは、タスクに関する事前知識を効果的に利用する必要があることが知られています。タスク自体に関する事前情報を持つことにより、エージェントは方策を適応させることができ、サブオプティマルな方策に陥るのを回避することができます。しかし、現在のほとんどの強化学習手法は、事前のトレーニングや外部の知識なしで訓練されています。

では、なぜそうなのでしょうか?近年、大規模な言語モデル(LLM)を使用してRLエージェントを探索のために支援することに関心が高まっています。このアプローチは有望な結果を示していますが、環境におけるLLMの知識の具体化やLLMの出力の正確さといった多くの課題がまだ残されています。

では、RLエージェントの支援にLLMを使用するのを諦めるべきでしょうか?もしそうでない場合、どのようにしてこれらの問題を解決し、再びLLMを使用してRLエージェントをガイドすることができるのでしょうか?その答えは名前があり、それはDECKARDです。

DECKARDの概要。出典: https://arxiv.org/abs/2301.12050

DECKARDは、マインクラフト向けに訓練されています。マインクラフトで特定のアイテムを作成することは、ゲームの専門知識がなければ難しい課題となり得ます。これは、ゲーム内の目標を達成することが、密な報酬や専門家のデモンストレーションを使用することで容易になることを示した研究によって実証されています。その結果、マインクラフトにおけるアイテムの作成は、AIの分野において持続的な課題となっています。

DECKARDは、大規模な言語モデル(LLM)に対してフューショットプロンプティング技術を使用してサブゴールのための抽象的なワールドモデル(AWM)を生成します。LLMを使用して、タスクとその解決手順について仮説を立てます。その後、実際の環境でモジュラーポリシーを学習し、夢見る間に生成されたサブゴールのポリシーを生成します。これにより、DECKARDは仮説を検証することができます。AWMは起床フェーズで修正され、発見されたノードは将来再利用するために検証済みとマークされます。

実験によれば、LLMのガイダンスはDECKARDの探索において重要であり、LLMのガイダンスなしのバージョンのエージェントは、オープンエンドの探索中にアイテムを作るのに2倍以上の時間がかかります。特定のタスクを探索する際、DECKARDは比較可能なエージェントと比べて数桁以上のサンプル効率を改善し、LLMをRLに堅牢に適用する可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「AIの潜在能力解放:クラウドGPUの台頭」

「クラウドGPU」とは、AIアプリケーションによる複雑な計算課題に対するスケーラブルでコスト効率の良い包括的なソリューショ...

機械学習

「プロンプトエンジニアリングによるAIの潜在能力の解放」

迅速なエンジニアリングは、簡潔でコンテキスト豊かなクエリの作成スキルであり、AIが最も関連性の高い正確な応答を生成する...

データサイエンス

「ゼロからLLMを構築する方法」

「これは、大規模言語モデル(LLM)を実践的に使用するシリーズの6番目の記事です以前の記事では、プロンプトエンジニアリン...

AIニュース

「マイクロソフトが初のAIチップ、Maia 100チップとコバルトCPUを公開」

Igniteカンファレンスでの画期的な動きにより、マイクロソフトは大いに期待されていたMaia 100チップとCobalt CPUを発表しま...

機械学習

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です...

データサイエンス

ユーザーフィードバック - MLモニタリングスタックの欠けている部分

「AIモデルを数ヶ月もかけて実装し、何百万円も投資してみたけれど、誰も使ってくれないことって経験ありますか?採用の課題...