「LLMは強化学習を上回る- SPRINGと出会う LLM向けの革新的なプロンプティングフレームワークで、コンテキスト内での思考計画と推論を可能にするために設計されました」

LLM is an innovative prompting framework designed to enable thinking, planning, and inference within the context, surpassing reinforcement learning - SPRING.

SPRINGは、マルチタスクの計画と推論を必要とする対話型環境で強化学習アルゴリズムを上回るLLMベースのポリシーです。

カーネギーメロン大学、NVIDIA、アリエル大学、マイクロソフトの研究者グループは、ゲームの文脈で人間の知識を理解し推論するためにLarge Language Models (LLMs)の使用を調査しました。彼らは、学術論文を研究し、それに基づいて知識を正当化するために、SPRINGと呼ばれる2段階のアプローチを提案しています。

SPRINGの詳細について

第1段階では、著者たちはHafner (2021)のオリジナル論文のLaTeXソースコードを読み取り、事前知識を抽出しました。彼らはLLMを使用して、ゲームメカニクスや論文に記載された望ましい動作などの関連情報を抽出しました。次に、Wu et al. (2023)と類似のQA要約フレームワークを使用して、抽出した知識に基づいてQA対話を生成しました。これにより、SPRINGは多様な文脈情報を扱うことができるようになりました。

第2段階では、LLMを使用して複雑なゲームを解決するための文脈に基づいた思考の連鎖推論に焦点を当てました。質問をノードとし、質問間の依存関係をエッジとして表す有向非巡回グラフ(DAG)を推論モジュールとして構築しました。たとえば、質問「各アクションに対して要件は満たされていますか?」は、DAG内で質問「トップ5のアクションは何ですか?」にリンクされ、後者の質問から前者への依存関係が確立されます。

LLMの回答は、DAGをトポロジカル順序でトラバースすることで各ノード/質問ごとに計算されます。DAGの最後のノードは最適なアクションに関する質問を表し、LLMの回答は直接環境アクションに変換されます。

実験と結果

Hafner (2021)によって導入されたCrafter Environmentは、深さ7のテックツリーで構成された22の実績を持つオープンワールドサバイバルゲームです。このゲームは、上から見た観察と17のオプションからなる離散的なアクション空間で表されます。観察には、プレイヤーの現在のインベントリ状態(体力、食べ物、水、休息レベル、アイテムなど)に関する情報も提供されます。

著者たちは、CrafterベンチマークでSPRINGと人気のあるRL手法を比較しました。その後、アーキテクチャの異なるコンポーネントについての実験と分析を行い、LLMの文脈における「推論」能力に各部分が与える影響を調査しました。

出典: https://arxiv.org/pdf/2305.15486.pdf

著者たちは、Hafner et al. (2023)による最も優れたRL手法と比較して、Hafner (2021)の環境論文に基づいて条件付けられたGPT-4との比較を行いました。SPRINGは、ゲームスコアで88%の相対的な改善と報酬で5%の改善を達成し、これまでの最先端(SOTA)手法を大幅に上回りました。

特筆すべきは、SPRINGは論文の読解に基づいた事前知識を活用し、トレーニングステップを一切必要としない点です。一方、RL手法は通常、何百万ものトレーニングステップを必要とします。

出典: https://arxiv.org/pdf/2305.15486.pdf

上記の図は、異なるタスクのアンロック率を比較したもので、SPRINGと人気のあるRL手法を対象としています。SPRINGは、事前知識によって強化されたため、「Stone Pickaxeを作る」、「Stone Swordを作る」、「Ironを集める」といったテックツリーの深い実績(深さ5まで)でRL手法を10倍以上上回ります。

さらに、SPRINGは「Cowを食べる」と「Drinkを集める」といった実績でも完璧なパフォーマンスを発揮します。一方、Dreamer-V3などのモデルベースのRLフレームワークは、「Cowを食べる」のような動く牛にたどり着く難しさから、アンロック率が大幅に低下します(5倍以上の低下)。重要なことは、SPRINGはHafner (2021)の論文でエージェントにとって有益でないとされている「Stoneを置く」というアクションを実行しませんが、ランダムな探索を通じて簡単に達成できる可能性があることです。

制約事項

環境とのやり取りにLLMを使用する場合の制約事項の1つは、オブジェクトの認識と接地の必要性です。ただし、現代のゲームや仮想現実の世界など、正確なオブジェクト情報を提供する環境では、この制約は存在しません。事前に学習した視覚バックボーンはゲームでは苦労しますが、現実世界に似た環境ではかなり良いパフォーマンスを発揮します。視覚言語モデルの最近の進展は、将来的に視覚言語理解の信頼性のある解決策の可能性を示しています。

結論

要約すると、SPRINGフレームワークは、ゲーム理解と推論のための言語モデル(LLM)の可能性を示しています。学術論文からの事前知識を活用し、文脈に即した思考連鎖推論を行うことで、SPRINGはCrafterベンチマークで従来の最先端手法を上回り、ゲームのスコアと報酬に大幅な改善をもたらします。その結果は、LLMの複雑なゲームタスクにおける強力さを示し、視覚言語モデルの将来の進展が既存の制約に対処し、信頼性のある一般化可能な解決策の可能性を示唆しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ワンダーダイナミックスの使い方:自分自身を3Dキャラクターに変身させる方法

ボタンをクリックするだけで、自分自身を3Dアニメーションキャラクターに変身させることができます

データサイエンス

スケールにおける機械学習:モデルとデータの並列化

モデルがますます複雑になり、データセットが巨大になるにつれて、計算ワークロードを効率的に分散する方法の必要性はますま...

データサイエンス

「明日のAIによるサイバーセキュリティの風景に備える」

「AIの能力は二律背反の剣であり、既存のセキュリティ製品の効果を向上させる強力なツールである一方で、より洗練された脅威...

機械学習

「AI/MLツールとフレームワーク:包括的な比較ガイド」

この記事では、主要なAI/MLツールやフレームワークの簡潔な比較を提供し、特定のAI/MLプロジェクトに適した技術の選択を支援...

人工知能

I/O 2023 で発表した100のこと

Google I/O 2023はニュースとローンチで満ち溢れていましたここではI/Oで発表された100のことを紹介します

AI研究

「新しいAI研究は、3D構造に基づいたタンパク質表現学習のためのシンプルで効果的なエンコーダーを提案する」

細胞のエネルギーであるタンパク質は、材料や治療など、さまざまなアプリケーションに関与しています。タンパク質はアミノ酸...