「LLMは強化学習を上回る- SPRINGと出会う LLM向けの革新的なプロンプティングフレームワークで、コンテキスト内での思考計画と推論を可能にするために設計されました」

LLM is an innovative prompting framework designed to enable thinking, planning, and inference within the context, surpassing reinforcement learning - SPRING.

SPRINGは、マルチタスクの計画と推論を必要とする対話型環境で強化学習アルゴリズムを上回るLLMベースのポリシーです。

カーネギーメロン大学、NVIDIA、アリエル大学、マイクロソフトの研究者グループは、ゲームの文脈で人間の知識を理解し推論するためにLarge Language Models (LLMs)の使用を調査しました。彼らは、学術論文を研究し、それに基づいて知識を正当化するために、SPRINGと呼ばれる2段階のアプローチを提案しています。

SPRINGの詳細について

第1段階では、著者たちはHafner (2021)のオリジナル論文のLaTeXソースコードを読み取り、事前知識を抽出しました。彼らはLLMを使用して、ゲームメカニクスや論文に記載された望ましい動作などの関連情報を抽出しました。次に、Wu et al. (2023)と類似のQA要約フレームワークを使用して、抽出した知識に基づいてQA対話を生成しました。これにより、SPRINGは多様な文脈情報を扱うことができるようになりました。

第2段階では、LLMを使用して複雑なゲームを解決するための文脈に基づいた思考の連鎖推論に焦点を当てました。質問をノードとし、質問間の依存関係をエッジとして表す有向非巡回グラフ(DAG)を推論モジュールとして構築しました。たとえば、質問「各アクションに対して要件は満たされていますか?」は、DAG内で質問「トップ5のアクションは何ですか?」にリンクされ、後者の質問から前者への依存関係が確立されます。

LLMの回答は、DAGをトポロジカル順序でトラバースすることで各ノード/質問ごとに計算されます。DAGの最後のノードは最適なアクションに関する質問を表し、LLMの回答は直接環境アクションに変換されます。

実験と結果

Hafner (2021)によって導入されたCrafter Environmentは、深さ7のテックツリーで構成された22の実績を持つオープンワールドサバイバルゲームです。このゲームは、上から見た観察と17のオプションからなる離散的なアクション空間で表されます。観察には、プレイヤーの現在のインベントリ状態(体力、食べ物、水、休息レベル、アイテムなど)に関する情報も提供されます。

著者たちは、CrafterベンチマークでSPRINGと人気のあるRL手法を比較しました。その後、アーキテクチャの異なるコンポーネントについての実験と分析を行い、LLMの文脈における「推論」能力に各部分が与える影響を調査しました。

出典: https://arxiv.org/pdf/2305.15486.pdf

著者たちは、Hafner et al. (2023)による最も優れたRL手法と比較して、Hafner (2021)の環境論文に基づいて条件付けられたGPT-4との比較を行いました。SPRINGは、ゲームスコアで88%の相対的な改善と報酬で5%の改善を達成し、これまでの最先端(SOTA)手法を大幅に上回りました。

特筆すべきは、SPRINGは論文の読解に基づいた事前知識を活用し、トレーニングステップを一切必要としない点です。一方、RL手法は通常、何百万ものトレーニングステップを必要とします。

出典: https://arxiv.org/pdf/2305.15486.pdf

上記の図は、異なるタスクのアンロック率を比較したもので、SPRINGと人気のあるRL手法を対象としています。SPRINGは、事前知識によって強化されたため、「Stone Pickaxeを作る」、「Stone Swordを作る」、「Ironを集める」といったテックツリーの深い実績(深さ5まで)でRL手法を10倍以上上回ります。

さらに、SPRINGは「Cowを食べる」と「Drinkを集める」といった実績でも完璧なパフォーマンスを発揮します。一方、Dreamer-V3などのモデルベースのRLフレームワークは、「Cowを食べる」のような動く牛にたどり着く難しさから、アンロック率が大幅に低下します(5倍以上の低下)。重要なことは、SPRINGはHafner (2021)の論文でエージェントにとって有益でないとされている「Stoneを置く」というアクションを実行しませんが、ランダムな探索を通じて簡単に達成できる可能性があることです。

制約事項

環境とのやり取りにLLMを使用する場合の制約事項の1つは、オブジェクトの認識と接地の必要性です。ただし、現代のゲームや仮想現実の世界など、正確なオブジェクト情報を提供する環境では、この制約は存在しません。事前に学習した視覚バックボーンはゲームでは苦労しますが、現実世界に似た環境ではかなり良いパフォーマンスを発揮します。視覚言語モデルの最近の進展は、将来的に視覚言語理解の信頼性のある解決策の可能性を示しています。

結論

要約すると、SPRINGフレームワークは、ゲーム理解と推論のための言語モデル(LLM)の可能性を示しています。学術論文からの事前知識を活用し、文脈に即した思考連鎖推論を行うことで、SPRINGはCrafterベンチマークで従来の最先端手法を上回り、ゲームのスコアと報酬に大幅な改善をもたらします。その結果は、LLMの複雑なゲームタスクにおける強力さを示し、視覚言語モデルの将来の進展が既存の制約に対処し、信頼性のある一般化可能な解決策の可能性を示唆しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

リトリーバル・オーグメンテッド・ジェネレーションにおける関連性の課題にどのように対処するか

パート1では、非最適な埋め込みモデル、効率の悪いチャンキング戦略、およびメタデータフィルタリングの不足により、LLMから...

データサイエンス

「ジェンAIの時代:新たな始まり」

イントロダクション 急速に進化するテクノロジーの世界で、我々は新たな時代の予感に包まれています。それは、かつて人間にし...

AI研究

サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります

オープン・ラジオ・アクセス・ネットワーク(O-RAN)は、分離されたラジオ・アクセス・ネットワーク(RAN)に知能を注入し、...

人工知能

関数呼び出し:GPTチャットボットを何にでも統合する

OpenAIのGPTの新しい関数呼び出し機能を探索し、チャットボットが外部ツールやAPIと対話できるようにしますAIパワーを活用し...

AI研究

CMUとUCサンタバーバラの研究者は、心理療法における認知の歪み検出のための革新的なAIベースの「思考の診断」を提案しています

世界中で、約8人に1人が精神の問題を抱えています。しかし、精神保健障害は、心の専門家の不足、劣悪な治療法、高額な費用、...

AIニュース

「全てのOECDおよびG20加盟国において、インドがAIスキルと人材で1位にランクされました」

技術の絶え間ない進化の中で、一つのスキルが輝く存在となりました。それが人工知能(AI)です。インドはその膨大な技術労働...