「LLMは強化学習を上回る- SPRINGと出会う LLM向けの革新的なプロンプティングフレームワークで、コンテキスト内での思考計画と推論を可能にするために設計されました」
LLM is an innovative prompting framework designed to enable thinking, planning, and inference within the context, surpassing reinforcement learning - SPRING.
SPRINGは、マルチタスクの計画と推論を必要とする対話型環境で強化学習アルゴリズムを上回るLLMベースのポリシーです。
カーネギーメロン大学、NVIDIA、アリエル大学、マイクロソフトの研究者グループは、ゲームの文脈で人間の知識を理解し推論するためにLarge Language Models (LLMs)の使用を調査しました。彼らは、学術論文を研究し、それに基づいて知識を正当化するために、SPRINGと呼ばれる2段階のアプローチを提案しています。
SPRINGの詳細について
第1段階では、著者たちはHafner (2021)のオリジナル論文のLaTeXソースコードを読み取り、事前知識を抽出しました。彼らはLLMを使用して、ゲームメカニクスや論文に記載された望ましい動作などの関連情報を抽出しました。次に、Wu et al. (2023)と類似のQA要約フレームワークを使用して、抽出した知識に基づいてQA対話を生成しました。これにより、SPRINGは多様な文脈情報を扱うことができるようになりました。
- 「DeepMind AIが数百万の動画のために自動生成された説明を作成することで、YouTube Shortsの露出を大幅に向上させる」
- 「効果的なマーケティング戦略開発のための機械学習の活用」
- PIDコントローラの最適化:勾配降下法のアプローチ
第2段階では、LLMを使用して複雑なゲームを解決するための文脈に基づいた思考の連鎖推論に焦点を当てました。質問をノードとし、質問間の依存関係をエッジとして表す有向非巡回グラフ(DAG)を推論モジュールとして構築しました。たとえば、質問「各アクションに対して要件は満たされていますか?」は、DAG内で質問「トップ5のアクションは何ですか?」にリンクされ、後者の質問から前者への依存関係が確立されます。
LLMの回答は、DAGをトポロジカル順序でトラバースすることで各ノード/質問ごとに計算されます。DAGの最後のノードは最適なアクションに関する質問を表し、LLMの回答は直接環境アクションに変換されます。
実験と結果
Hafner (2021)によって導入されたCrafter Environmentは、深さ7のテックツリーで構成された22の実績を持つオープンワールドサバイバルゲームです。このゲームは、上から見た観察と17のオプションからなる離散的なアクション空間で表されます。観察には、プレイヤーの現在のインベントリ状態(体力、食べ物、水、休息レベル、アイテムなど)に関する情報も提供されます。
著者たちは、CrafterベンチマークでSPRINGと人気のあるRL手法を比較しました。その後、アーキテクチャの異なるコンポーネントについての実験と分析を行い、LLMの文脈における「推論」能力に各部分が与える影響を調査しました。
著者たちは、Hafner et al. (2023)による最も優れたRL手法と比較して、Hafner (2021)の環境論文に基づいて条件付けられたGPT-4との比較を行いました。SPRINGは、ゲームスコアで88%の相対的な改善と報酬で5%の改善を達成し、これまでの最先端(SOTA)手法を大幅に上回りました。
特筆すべきは、SPRINGは論文の読解に基づいた事前知識を活用し、トレーニングステップを一切必要としない点です。一方、RL手法は通常、何百万ものトレーニングステップを必要とします。
上記の図は、異なるタスクのアンロック率を比較したもので、SPRINGと人気のあるRL手法を対象としています。SPRINGは、事前知識によって強化されたため、「Stone Pickaxeを作る」、「Stone Swordを作る」、「Ironを集める」といったテックツリーの深い実績(深さ5まで)でRL手法を10倍以上上回ります。
さらに、SPRINGは「Cowを食べる」と「Drinkを集める」といった実績でも完璧なパフォーマンスを発揮します。一方、Dreamer-V3などのモデルベースのRLフレームワークは、「Cowを食べる」のような動く牛にたどり着く難しさから、アンロック率が大幅に低下します(5倍以上の低下)。重要なことは、SPRINGはHafner (2021)の論文でエージェントにとって有益でないとされている「Stoneを置く」というアクションを実行しませんが、ランダムな探索を通じて簡単に達成できる可能性があることです。
制約事項
環境とのやり取りにLLMを使用する場合の制約事項の1つは、オブジェクトの認識と接地の必要性です。ただし、現代のゲームや仮想現実の世界など、正確なオブジェクト情報を提供する環境では、この制約は存在しません。事前に学習した視覚バックボーンはゲームでは苦労しますが、現実世界に似た環境ではかなり良いパフォーマンスを発揮します。視覚言語モデルの最近の進展は、将来的に視覚言語理解の信頼性のある解決策の可能性を示しています。
結論
要約すると、SPRINGフレームワークは、ゲーム理解と推論のための言語モデル(LLM)の可能性を示しています。学術論文からの事前知識を活用し、文脈に即した思考連鎖推論を行うことで、SPRINGはCrafterベンチマークで従来の最先端手法を上回り、ゲームのスコアと報酬に大幅な改善をもたらします。その結果は、LLMの複雑なゲームタスクにおける強力さを示し、視覚言語モデルの将来の進展が既存の制約に対処し、信頼性のある一般化可能な解決策の可能性を示唆しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles