「AGIに向かって:LLMと基礎モデルが人生の学びの革命で果たす役割」
「人生の学びの革命:AGIへ向かう中でのLLMと基礎モデルの役割」
人工汎用知能(AGI)に向けた持続的学習の進化を促進する革新を統合する、VOYAGER、DEPS、およびAutoGPTを含む
はじめに:
過去10年間、特にディープラーニングの成功により、人工汎用知能(AGI)の構築の可能性についての議論が続いています。 AGIにおける究極の目標は、人間が行える任意のタスクを実行できるエージェントを作成することです。そのようなエージェントには、新しいスキルを持続的に学習し、学習したスキルを使ってより複雑なスキルをより速く学習する能力が不可欠です。これらのスキルは、エージェントが環境と相互作用し、失敗から成功まで学習することで分割される必要があります。そして新しいスキルを学習すると、エージェントは将来のために獲得したスキルのレパートリーに統合する必要があります。大規模言語モデル(LLM)は、世界の理解とさまざまなタスクの達成方法についての良い理解を示しています。これまでに、持続的学習のための主要な意思決定者としてLLMを使用することを目指した一連の興味深い論文が発表されてきました。これらの研究では、CrafterやMinecraftなどの類似のテスト環境が選ばれることが多いです。それは生存と繁栄という究極のAGIの目標をシミュレートできるためです。
この分野の最新の進展を探るために、まず学習プロセスを容易にするさまざまな要素の協力関係を概説します。その後、各コンポーネントの詳細について、異なる研究論文間での実装と機能性を比較します。
概要:
タスクの学習/達成の反復的かつ継続的なプロセスを開発するために、多くの推奨フレームワークが識別可能なプロセスを採用しています。フィードバック制御や強化学習のバックグラウンドを持つ人々は、似たような構造(図1参照)に気付くでしょう。ただし、人的手入力の最小化とプロセスの自動化を向上させる注目すべき追加要素があります。
最初のステップとして、幅広く定義されたタスクが人間によってエージェントに割り当てられ、生涯学習の主な目標が反映されます。このタスクは通常、主目的を概説したプロンプトの形で提示されます。例えば、「環境を探索し、可能な限り多くの異なるタスクを達成する」というものです。プランナーブロックは、この広義の目標に基づいて目標を実行可能なタスクのシーケンスに分解します。そのような分解には、エージェントが操作する環境の理解が必要です。LLMは、大量のデータセットでトレーニングされているため、プランナーに最適な候補となる可能性があります。さらに、任意の補足的、明示的、または手動の文脈は、パフォーマンスを向上させることができます。
セレクターブロックでは、プランナーによって派生した一連のサブタスクが提供されます。セレクターは、主目的と批評家のインサイトによって、最適な次のサブタスクを決定します。このサブタスクは、最良の結果を生成するだけでなく、前提条件も満たすものでなければなりません。コントローラーの役割は、現在のサブタスクを達成するためのアクションを生成することです。重複した取り組みを最小化し、以前に習得したタスクを活用するために、いくつかの研究ではメモリブロックの組み込みを提案しています。このブロックは、最も類似した学習済みのタスクを取得するために使用され、進行中のワークフローに統合します。
生成されたアクションは次に環境に導入されます。最近のアクションの影響を評価するために、批評家は環境の状態を監視し、失敗の原因や潜在的なタスク完了を含むフィードバックを提供します。LLMベースの批評家は、テキスト入力が必要であり、これは環境とエージェントの状態をテキストで説明/変換するためのディスクリプターブロックによって実現されます。批評家は、直近の試行で具体的に何が起こったかをプランナーに通知し、次の試行のための包括的なフィードバックを提供します。
ビルディングブロックの説明:研究間でのデザインと実装の比較
このセクションでは、異なる研究者が採用したさまざまなアプローチを踏まえ、各ブロックを詳しく探求します。
プランナー
このコンポーネントは、与えられた環境における終身学習タスクを組織化します。最終目標は、手動で与えられることもあります(DEPSのように)、またはガイドラインのようになることもあります(VOYAGERのように)、つまり、プランナーのプロンプトとして多様な行動の学習を促すこともあります。
LLMベースのプランナーは、エージェントの現在の状態、スキルレベル、およびプロンプトで提供される指示に合わせたタスクを設定することにより、学習プロセスを組み立てます。このような機能は、LLMに組み込まれており、彼らがトレーニング中に同様のタスク分解プロセスにさらされているという前提に基づいています。しかし、これはSPRINGでは成り立たない前提です。SPRINGはGPT-3.5およびGPT-4モデルのデータ収集後にリリースされたクラフター環境で実験を実施したため、彼らは環境マニュアルテキストから関連情報を抽出し、後でプロンプトに連結するための小さなコンテキストに要約する方法を提案しました。実際の応用では、エージェントは複雑さの異なるさまざまな環境に出くわすため、このような簡潔で効率的な手法は新たに開発されたタスクに対して事前トレーニングされたモデルの微調整を回避するために重要な役割を果たすことができます。
VOYAGERはGPT-4を自動カリキュラムモジュールとして使用し、探索の進捗とエージェントの状態に基づいてますます困難なタスクを提案しようとしました。そのプロンプトには、次のようないくつかのコンポーネントが含まれています:(1) 制約を設定しながら探索を促進する、(2) 現在のエージェントの状態、(3) 以前に完了したタスクや失敗したタスク、(4) 別のGPT-3.5のセルフクエスチョンアンサリングモジュールからの追加のコンテキスト。そして、エージェントが達成するタスクを出力します。
DEPSは、異なる環境でCODEX、GPT-4、ChatGPT、およびGPT-3をLLMプランナーとして使用しました。プロンプトには次のものが含まれます:(1) 困難な最終目標(たとえば、Minecraft環境でダイヤモンドを取得する),(2) 最も最近生成された計画,(3) 環境の説明とその説明。プランの効率性を向上させるために、DEPSは現在の状態に基づいて候補目標セットから最も近い目標を選択するための状態意識型セレクターも提案しました。複雑な環境では、実行可能なプランが複数存在する場合がありますが、それらの中には実行の効率が悪く、プラン内の一部の目標はどの順序で実行されてもかまわないため、柔軟性があります。より近い目標を優先することで、プランの効率性を向上させることができます。このため、彼らはオフラインの軌跡を使用してニューラルネットワークをトレーニングし、現在の状態での与えられた目標の完了に必要なタイムステップに基づいて予測およびランキングを行います。プランナーはセレクターとの協力により、達成すべきタスクのシーケンスを生成します。
コントローラー:
コントローラーの主な責任は、与えられたタスクを達成するための次のアクションを選択することです。コントローラーは別のLLM(VOYAGERなど)またはディープ強化学習モデル(DEPSなど)である場合があり、状態と与えられたタスクに基づいてアクションを生成します。 VOYAGERでは、コントローラーの役割を果たすためにGPT-4を使用してインタラクティブプロンプトを行います。 VOYAGER、Progprompt、およびCaPは、低レベルのモーターコマンドではなくコードをアクションスペースとして使用することを選択しています。これは長期的なタスクにおいて重要であり、コードは時間的に拡張可能で合成的なアクションを自然に表現することができます。 VOYAGERのコード生成のためのプロンプトには次のものが含まれます:(1) コード生成の動機づけガイドライン、(2) 制御プリミティブAPIの利用可能なリストとその説明、(3) メモリから取得された関連するスキル/コード、(4) 前ラウンドからの生成されたコード、環境からのフィードバック、実行エラー、およびクリティックの出力、(5) 現在の状態、(6) コード生成前に推論を行うための思考連鎖のプロンプト。
コントローラの別の代替手段は、現在の状態と目標に基づいて行動を生成するために、ディープ強化学習エージェントをトレーニングすることです。 DEPS は、そのようなモデルをトレーニングするために模倣学習を使用しました。
メモリ:
人間は、与えられたタスクを達成するために異なるタイプのメモリを使用します。主なメモリの機能は以下のカテゴリに分類されます:
1- 短期記憶: 学習や推論といったタスクに積極的に使用している情報を格納します。おおよそ7つの項目を保持し、約20〜30秒間持続すると考えられています[10]。私たちの知る限り、すべてのLLMベースの生涯学習方法は、LLMの文脈の長さに制約されるインコンテキスト学習によって短期記憶を使用しています。
2- 長期記憶: 長期間情報を保存し、呼び出します。これは高速な取り出しを持つ外部ベクトルストアとして実装することができます。VOYAGERは、長期記憶を利用して外部ベクトルストアから学習したスキルを追加/取り出します。前述のように、スキルはコントローラによって生成される実行可能なコードであり、課題を達成するために必要な手順を指示します。
クリティックがコードがタスクを完了できるかどうかを検証すると、GPT-3.5はコードの説明を生成するために使用されます。その後、スキルはスキルライブラリに保存されます。ここで、説明の埋め込みがキーとなり、コードが値となります(図2参照)。プランナーによって新しいタスクが提案された場合、GPT-3.5はタスクの完了に関する一般的な提案を生成します。環境フィードバックとともに提案された解決策の埋め込みを使用して、スキルライブラリから上位5つの関連するスキルを取得します(図2参照)。
長期記憶を追加すると、パフォーマンスが大幅に向上します。図3は、VOYAGERにおけるスキルライブラリの重要性を示しています。これはまた、Auto-GPTにスキルライブラリを追加することでそのパフォーマンスが大幅に向上することを示しています。短期記憶と長期記憶は、ゴールを達成するためにコントローラと協力してポリシーを生成および洗練するために使用されます。
クリティック:
クリティックまたは自己検証は、以前に実行された計画について批評を行い、タスクを達成するための計画を洗練する方法についてフィードバックを提供するLLMベースのモジュールです。反射は、エージェントの推論をダイナミックメモリと自己反省によって向上させます。自己反省はGPT-4であり、クリティックの役割を果たします。報酬信号、現在の軌跡、および永続的なメモリを使用して、将来の試行の自己改善のための口頭のフィードバックを生成します。このフィードバックはスカラー報酬よりも情報量が多く、メモリに保存され、プランナーによって計画を洗練するために使用されます。
VOYAGER と DEPS は、コントローラによって生成されたアクション、コードを実行して環境フィードバックと実行エラーを取得します。この情報はクリティックのプロンプトに組み込まれ、ゴールが完了したかどうかを判断するためにクリティックとして機能し、また、タスクが失敗した場合はタスクの完了方法についての提案を行います。
ディスクリプター:
LLMベースのライフロングラーニングでは、プランナーの入力と出力はテキストです。 Crafterなどの一部の環境はテキストベースですが、他の環境では2Dまたは3Dの画像のレンダリング、またはいくつかの状態変数を返します。ディスクリプターは、モダリティをテキストに変換し、それらをLLMのプロンプトに組み込むための橋として機能します。
自律型AIエージェント:
このブログでは、基礎モデルと継続的学習を統合する最近の研究について主に議論します。これはAGIの達成に向けた大きな進歩です。ただし、これらのアプローチは自律型エージェントを開発するより広範な努力の一部を表していることを認識することが重要です。ここで議論される研究には、いくつかの注目すべきイニシアチブがキャタリストとして機能した可能性があります。以下のセクションでこれらを簡単に紹介します。
最近、AutoGPTやBabyAGIなどのいくつかの作品では、LLMを脳として使用し、複雑な問題を解決するための自律型エージェントとして設計されています。タスクを提供すると、彼らはループ内でタスクをサブタスクに分割し、自らプロンプトを行い、プロンプトに応答し、目標を達成するまでプロセスを繰り返します。また、インターネットアクセスなどのさまざまなAPIにアクセスすることもできます。これにより、彼らの使用例は大幅に広がります。
AutoGPTは、GPT-3.5とGPT-4の両方であり、彼らが何をすべきかを指示するコンパニオンボットと組み合わされています。 AutoGPTはインターネットにアクセスし、オンラインおよびローカルのアプリ、ソフトウェア、サービスと対話することができます。人間から与えられた上位レベルの目標を達成するために、AutoGPTはReason and ACT(ReACT)と呼ばれるプロンプトの形式を使用します。ReACTにより、エージェントは入力を受け取り、それを理解し、それに基づいて行動し、結果に対して推論を行い、必要に応じてそのループを再実行することができます。 AutoGPTは自己プロンプトできるため、タスクを実行しながら考え、推論することができ、解決策を探し、成功しなかったものを破棄し、さまざまなオプションを考慮することができます。
BabyAGIは最近導入された別の自律型AIエージェントです。図4を参照:1-タスクリストを作成するタスク作成エージェント(Plannerに類似)2-優先化エージェントはLLMプロンプトによってタスクリストの優先順位を決定しようとします(Selectorに類似)3-優先度が最も高いタスクを実行する実行エージェント(Controllerに類似)。
AutoGPTとBabyAGIの両方は、中間結果を保存し、経験から学習するためのベクトルストアを内部で使用しています。
図4:BabyAGIフローチャートダイアグラム(画像のソース:Yohei Nakajimaのウェブサイト)
制約と課題:
1-LLMベースのライフロングラーニングは、環境を正確に理解し、効果的に計画し、評価するためにLLMの信頼性に大きく依存しています。しかし、研究によると、LLMは時に幻覚を生み出したり、事実を捏造したり、存在しないタスクを割り当てたりすることがあります。特に、いくつかの参考文献でGPT-4をGPT-3.5と置き換えると、性能の大幅な低下が見られ、使用されるLLMモデルの重要な役割が強調されています。
2- LLMは、プランナーや評論家として使用する際に、不正確さを示す場合があります。評論家は誤ったフィードバックを提供したり、タスクの完了を正確に検証できなかったりすることがあります。同様に、プランナーは反復的なサイクルに囚われ、何度かの試みの後でも計画を調整することができない場合があります。これらのモデルのパフォーマンスを向上させるためには、うまく設計されたイベントトリガー人間の介入プロセスを追加することができます。
3- LLMの制約されたコンテキスト長は、短期記憶能力に影響を与え、詳細な過去の経験や結果、詳細な手順、利用可能な制御プリミティブAPIを保持する能力に影響を与えます。特にセルフベリフィケーションでは、長いコンテキスト長は非常に重要です。過去の経験や失敗から学ぶためには、さらなる研究の努力が必要です。コンテキストの長さを拡張するか、Transformer-XLのような手法を使用するために、GPT-4を最大8,192トークンのコンテキスト長で使用する場合がほとんどです。
4- SPRINGを除くこれらの研究のほとんどは、実験を開始する前に、LLMが終身学習を開始するために必要なすべての情報を知っているという前提を立てています。しかし、この前提は常に正しいとは限りません。AutoGPTのようにエージェントにインターネットアクセスを提供したり、SPRINGのようにテキスト素材を入力コンテキストとして提供したりすることは、フォローアップの質問に対処するのに役立つ場合があります。
参考文献:
[1] VOYAGER: Wang, Guanzhi, et al. “Voyager: An open-ended embodied agent with large language models.”, 2023
[2] DEPS: Wang, Zihao, et al. “Describe, explain, plan and select: Interactive planning with large language models enables open-world multi-task agents.”, 2023
[3] SPRING: Wu, Yue, et al. “SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning.”, 2023
[4] Reflexion: Shinn, Noah, et al. “Reflexion: Language agents with verbal reinforcement learning.”, 2023
[5] Progprompt: Singh, Ishika, et al. “Progprompt: Generating situated robot task plans using large language models.”, 2023
[6] React: Yao, Shunyu, et al. “React: Synergizing reasoning and acting in language models.”, 2022
[7] CaP: Liang, Jacky, et al. “Code as policies: Language model programs for embodied control.”, 2023
[8] AutoGPT. https://github.com/Significant-Gravitas/Auto-GPT
[9] babyAGI: https://github.com/yoheinakajima/babyagi
[10] Weng, Lilian, et al. “LLM-powered Autonomous Agents”, 2023
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles