「夢を先に見て、後で学ぶ:DECKARDは強化学習(RL)エージェントのトレーニングにLLMsを使用するAIアプローチです」

DECKARDは強化学習エージェントのトレーニングにLLMsを使用するAIアプローチです

強化学習(RL)は、環境との相互作用によって複雑なタスクを実行することを学ぶことができる自律エージェントの訓練手法です。RLにより、エージェントは異なる状況で最適な行動を学び、報酬システムを使用して環境に適応することができます。

RLにおける主な課題は、多くの現実世界の問題の広範な状態空間を効率的に探索する方法です。この課題は、RLにおいてエージェントが探索を通じて環境との相互作用によって学習するために生じます。マインクラフトをプレイしようとするエージェントを考えてみてください。以前に聞いたことがある場合、マインクラフトのクラフトツリーがどれだけ複雑であるかを知っているはずです。数百のクラフト可能なオブジェクトがあり、一つを作るためには別のものを作る必要があるかもしれません。つまり、非常に複雑な環境です。

環境が多数の可能な状態と行動を持つ場合、ランダムな探索だけでは最適な方策を見つけることが困難になることがあります。エージェントは、現在の最適な方策を活用することと、状態空間の新しい部分を探索してより良い方策を見つけることとのバランスを取る必要があります。探索と活用をバランス良く行う効果的な探索方法を見つけることは、RLの研究の活発な分野です。

実用的な意思決定システムは、タスクに関する事前知識を効果的に利用する必要があることが知られています。タスク自体に関する事前情報を持つことにより、エージェントは方策を適応させることができ、サブオプティマルな方策に陥るのを回避することができます。しかし、現在のほとんどの強化学習手法は、事前のトレーニングや外部の知識なしで訓練されています。

では、なぜそうなのでしょうか?近年、大規模な言語モデル(LLM)を使用してRLエージェントを探索のために支援することに関心が高まっています。このアプローチは有望な結果を示していますが、環境におけるLLMの知識の具体化やLLMの出力の正確さといった多くの課題がまだ残されています。

では、RLエージェントの支援にLLMを使用するのを諦めるべきでしょうか?もしそうでない場合、どのようにしてこれらの問題を解決し、再びLLMを使用してRLエージェントをガイドすることができるのでしょうか?その答えは名前があり、それはDECKARDです。

DECKARDの概要。出典: https://arxiv.org/abs/2301.12050

DECKARDは、マインクラフト向けに訓練されています。マインクラフトで特定のアイテムを作成することは、ゲームの専門知識がなければ難しい課題となり得ます。これは、ゲーム内の目標を達成することが、密な報酬や専門家のデモンストレーションを使用することで容易になることを示した研究によって実証されています。その結果、マインクラフトにおけるアイテムの作成は、AIの分野において持続的な課題となっています。

DECKARDは、大規模な言語モデル(LLM)に対してフューショットプロンプティング技術を使用してサブゴールのための抽象的なワールドモデル(AWM)を生成します。LLMを使用して、タスクとその解決手順について仮説を立てます。その後、実際の環境でモジュラーポリシーを学習し、夢見る間に生成されたサブゴールのポリシーを生成します。これにより、DECKARDは仮説を検証することができます。AWMは起床フェーズで修正され、発見されたノードは将来再利用するために検証済みとマークされます。

実験によれば、LLMのガイダンスはDECKARDの探索において重要であり、LLMのガイダンスなしのバージョンのエージェントは、オープンエンドの探索中にアイテムを作るのに2倍以上の時間がかかります。特定のタスクを探索する際、DECKARDは比較可能なエージェントと比べて数桁以上のサンプル効率を改善し、LLMをRLに堅牢に適用する可能性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

チャットアプリのLLMを比較する:LLaMA v2チャット対Vicuna

チャットアプリケーションにおいて、LLaMA v2 ChatとVicunaのどちらを使用するべきですか?2つのLLMの詳細な比較、それぞれの...

機械学習

AIパワードテックカンパニーが、食品小売業者に供給チェーン管理での新たなスタートを支援します

低く垂れ下がっている果物について話しましょう。Afreshは、食品ロスを減らすために供給チェーンを効率化するAIスタートアッ...

データサイエンス

「衛星データ、山火事、そしてAI:気候の課題に立ち向かうワイン産業の保護」

「オーストラリアは、世界で5番目に大きなワイン輸出国としてランク付けされており、ワインの世界で重要な位置を占めています...

機械学習

「Amazon Bedrockを使用した生成型AIアプリ:Go開発者のための入門ガイド」

「AWS Go SDKとAmazon Bedrock Foundation Models(FMs)を使用して、コンテンツ生成、チャットアプリケーションの構築、スト...

データサイエンス

「ChatGPTが連邦取引委員会によって潜在的な被害の調査を受ける」

重要な進展として、連邦取引委員会(FTC)が人工知能(AI)スタートアップ企業であるOpenAIの調査を開始しました。OpenAIはAI...

機械学習

AIによるテキストメッセージングの変革:自然言語処理技術の詳細な探求

「自然言語処理(NLP)の技術によるテキストメッセージングにおける人工知能(AI)の影響を深く探求し、洞察を得る」