「LLMは強化学習を上回る- SPRINGと出会う LLM向けの革新的なプロンプティングフレームワークで、コンテキスト内での思考計画と推論を可能にするために設計されました」

LLM is an innovative prompting framework designed to enable thinking, planning, and inference within the context, surpassing reinforcement learning - SPRING.

SPRINGは、マルチタスクの計画と推論を必要とする対話型環境で強化学習アルゴリズムを上回るLLMベースのポリシーです。

カーネギーメロン大学、NVIDIA、アリエル大学、マイクロソフトの研究者グループは、ゲームの文脈で人間の知識を理解し推論するためにLarge Language Models (LLMs)の使用を調査しました。彼らは、学術論文を研究し、それに基づいて知識を正当化するために、SPRINGと呼ばれる2段階のアプローチを提案しています。

SPRINGの詳細について

第1段階では、著者たちはHafner (2021)のオリジナル論文のLaTeXソースコードを読み取り、事前知識を抽出しました。彼らはLLMを使用して、ゲームメカニクスや論文に記載された望ましい動作などの関連情報を抽出しました。次に、Wu et al. (2023)と類似のQA要約フレームワークを使用して、抽出した知識に基づいてQA対話を生成しました。これにより、SPRINGは多様な文脈情報を扱うことができるようになりました。

第2段階では、LLMを使用して複雑なゲームを解決するための文脈に基づいた思考の連鎖推論に焦点を当てました。質問をノードとし、質問間の依存関係をエッジとして表す有向非巡回グラフ（DAG）を推論モジュールとして構築しました。たとえば、質問「各アクションに対して要件は満たされていますか？」は、DAG内で質問「トップ5のアクションは何ですか？」にリンクされ、後者の質問から前者への依存関係が確立されます。

LLMの回答は、DAGをトポロジカル順序でトラバースすることで各ノード/質問ごとに計算されます。DAGの最後のノードは最適なアクションに関する質問を表し、LLMの回答は直接環境アクションに変換されます。

実験と結果

Hafner (2021)によって導入されたCrafter Environmentは、深さ7のテックツリーで構成された22の実績を持つオープンワールドサバイバルゲームです。このゲームは、上から見た観察と17のオプションからなる離散的なアクション空間で表されます。観察には、プレイヤーの現在のインベントリ状態（体力、食べ物、水、休息レベル、アイテムなど）に関する情報も提供されます。

著者たちは、CrafterベンチマークでSPRINGと人気のあるRL手法を比較しました。その後、アーキテクチャの異なるコンポーネントについての実験と分析を行い、LLMの文脈における「推論」能力に各部分が与える影響を調査しました。

出典: https://arxiv.org/pdf/2305.15486.pdf

著者たちは、Hafner et al. (2023)による最も優れたRL手法と比較して、Hafner (2021)の環境論文に基づいて条件付けられたGPT-4との比較を行いました。SPRINGは、ゲームスコアで88％の相対的な改善と報酬で5％の改善を達成し、これまでの最先端（SOTA）手法を大幅に上回りました。

特筆すべきは、SPRINGは論文の読解に基づいた事前知識を活用し、トレーニングステップを一切必要としない点です。一方、RL手法は通常、何百万ものトレーニングステップを必要とします。

上記の図は、異なるタスクのアンロック率を比較したもので、SPRINGと人気のあるRL手法を対象としています。SPRINGは、事前知識によって強化されたため、「Stone Pickaxeを作る」、「Stone Swordを作る」、「Ironを集める」といったテックツリーの深い実績（深さ5まで）でRL手法を10倍以上上回ります。

さらに、SPRINGは「Cowを食べる」と「Drinkを集める」といった実績でも完璧なパフォーマンスを発揮します。一方、Dreamer-V3などのモデルベースのRLフレームワークは、「Cowを食べる」のような動く牛にたどり着く難しさから、アンロック率が大幅に低下します（5倍以上の低下）。重要なことは、SPRINGはHafner (2021)の論文でエージェントにとって有益でないとされている「Stoneを置く」というアクションを実行しませんが、ランダムな探索を通じて簡単に達成できる可能性があることです。

制約事項

環境とのやり取りにLLMを使用する場合の制約事項の1つは、オブジェクトの認識と接地の必要性です。ただし、現代のゲームや仮想現実の世界など、正確なオブジェクト情報を提供する環境では、この制約は存在しません。事前に学習した視覚バックボーンはゲームでは苦労しますが、現実世界に似た環境ではかなり良いパフォーマンスを発揮します。視覚言語モデルの最近の進展は、将来的に視覚言語理解の信頼性のある解決策の可能性を示しています。

結論

要約すると、SPRINGフレームワークは、ゲーム理解と推論のための言語モデル（LLM）の可能性を示しています。学術論文からの事前知識を活用し、文脈に即した思考連鎖推論を行うことで、SPRINGはCrafterベンチマークで従来の最先端手法を上回り、ゲームのスコアと報酬に大幅な改善をもたらします。その結果は、LLMの複雑なゲームタスクにおける強力さを示し、視覚言語モデルの将来の進展が既存の制約に対処し、信頼性のある一般化可能な解決策の可能性を示唆しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningPrompt EngineeringStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「LLMは強化学習を上回る- SPRINGと出会う LLM向けの革新的なプロンプティングフレームワークで、コンテキスト内での思考計画と推論を可能にするために設計されました」

SPRINGの詳細について

実験と結果

制約事項

結論

Was this article helpful?

「NTUシンガポールの研究者がResShiftを導入：他の手法と比較して、残差シフトを使用し、画像超解像度をより速く実現する新しいアップスケーラモデル」

機械学習

新しい人工知能（AI）の研究アプローチは、統計的な視点からアルゴリズム学習の問題として、プロンプトベースのコンテキスト学習を提示します

スマートインフラストラクチャのリスク評価における人間とAI・MLの協力

データの観察可能性：AI時代の信頼性

デヴオプスにおけるジェネレーティブAI：ピークなデヴオプスパフォーマンスを実現するスマートな（そして効果的な）方法

「StackOverflowが生成型AIに対応する方法」

「ChatGPTとBard AIを活用するために、ソフトウェア開発者はどのように役立つことができるのでしょうか？」