「読むべき創造的エージェント研究論文」
「魅力溢れる美容&ファッションエキスパートがお届けする、必読の創造的エージェント研究論文」
ジェネレーティブエージェント(Generative Agents)は、スタンフォード大学とGoogleの研究者が発表した論文「ジェネレーティブエージェント:人間の行動の対話的なシミュラクラ」(パークら、2023年)で生まれた用語です。この論文では、ジェネレーティブエージェントは信じられるほど人間の行動をシミュレートする計算ソフトウェアであることを説明しています。
この論文では、エージェントが人間と同じような行動をする方法を紹介しています。書く、料理する、話す、投票する、寝るなど、特に大規模言語モデル(LLM)を実装することで、ジェネレーティブモデルを用いてエージェントが行動を起こす能力を示すことができます。エージェントは自身や他のエージェント、環境についての推論を、自然言語モデルを利用して行うことができます。
研究者は、大規模な言語モデルを利用して信じられる行動を生成するために、関連する記憶を保存、統合、応用するシステムアーキテクチャを構築し、ジェネレーティブエージェントを可能にしました。このシステムは以下の3つのコンポーネントで構成されています。
- 「このAppleのAI研究は、ジェンダーステレオタイプに関するLLMsの振る舞いの既知の問題を調査します」
- ETHチューリッヒの研究者は、高速フィードフォワード(FFF)アーキテクチャを導入しましたこれは、そのニューロンのブロックに対して対数時間でアクセスするフィードフォワード(FF)アーキテクチャの仲間です
- 仕事を楽にすることができるトップ140以上の生成AIツール
- メモリストリーム:システムはエージェントの経験を記録し、エージェントの将来の行動の参照となります。
- 反射:システムはエージェントの経験を合成し、エージェントが学習し、より良いパフォーマンスを発揮できるようにします。
- 計画:システムは前のシステムからの知見を高レベルのアクションプランに変換し、エージェントが環境に反応することを可能にします。
これらの反射と計画のシステムは、メモリストリームと協力してエージェントの将来の行動に影響を与えます。
上記のシステムをシミュレートするために、研究者はSimsゲームに触発されたエージェントの対話的な社会を作成することに焦点を当てました。上記のアーキテクチャはChatGPTと接続され、サンドボックス内で25のエージェントの相互作用を成功裏に示すことができました。以下の画像は、1日のエージェントの活動の一例です。
研究者によって作成されたジェネレーティブエージェントを作成し、サンドボックスでシミュレートするためのコード全体は、既に研究者によってオープンソース化されています。このリポジトリは次の場所で見つけることができます。 repository。その指示は十分に簡単であり、問題なくそれに従うことができます。
ジェネレーティブエージェントは興味深い分野となり、この分野に基づくさまざまな研究が行われています。この記事では、読むべき様々なジェネレーティブエージェントの論文を探求します。それらは何でしょうか。さあ、見ていきましょう。
1. ソフトウェア開発のためのコミュニケーションエージェント
ソフトウェア開発のためのコミュニケーションエージェントに関する論文(Quan et al., 2023)は、ジェネレーティブエージェントを使用してソフトウェア開発を革新する新しいアプローチです。研究者が提案する前提は、大規模な言語モデル(LLM)による自然言語コミュニケーションを使用してソフトウェア開発プロセス全体を統一し、効率化することができるということです。タスクには、コードの開発、文書の生成、要件の分析などが含まれます。
研究者は、LLMを使用してソフトウェア全体を生成することは2つの大きな課題を抱えていると指摘しています:幻覚と意思決定における相互検証の欠如です。これらの問題に対処するため、研究者はChatDevと呼ばれるチャットベースのソフトウェア開発フレームワークを提案しています。
ChatDevフレームワークは、設計、コーディング、テスト、およびドキュメンテーションの4つのフェーズに従います。各フェーズでは、コードレビュワーやソフトウェアプログラマーなど、さまざまな役割を持つ複数のエージェントが設定されます。エージェント間のコミュニケーションがスムーズに行われるようにするため、研究者は各サブタスクを直列的な原子的なサブタスクに分割するチャットチェーンを開発しました。各サブタスクはエージェント間の協力と相互作用を実装します。
ChatDevフレームワークは以下の画像に示されています。
研究者は、ChatDevフレームワークのソフトウェア開発におけるパフォーマンスを測るためにさまざまな実験を行っています。gpt3.5-turbo-16kを使用した場合、以下はソフトウェア統計実験のパフォーマンスです。
上記の数字は、ChatDevによって生成されたソフトウェアシステムに関する統計分析に関する指標です。たとえば、最小で39行のコードが生成され、最大で359行です。研究者はまた、ChatDevによって生成されたソフトウェアシステムの86.66%が正常に動作することを示しました。
ディベロッパーの作業方法を変える可能性を示す素晴らしい論文です。ChatDevの完全な実装を理解するために、論文を読み進めてください。完全なコードはChatDevのリポジトリでも利用できます。
2. AgentVerse: エージェントのマルチエージェント協力とエージェントの新興行動を促進する
AgentVerseは、 Chen et al.、2023 による論文中で提案されたフレームワークで、グループ内のプロブレムソルビング手順やグループメンバーの進行に基づいてエージェントグループをシミュレートするための大規模言語モデルを使用します。この研究は、自律エージェントが問題解決で適応し進化できない静的なグループダイナミクスの課題を解決するために存在します。
AgentVerseフレームワークは、次の4つのステップに分割しようとします。
- エキスパートの採用:エージェントが問題と解決策と一致するように調整する段階
- 協力的意思決定:エージェントは問題を解決するための解決策と戦略を議論します。
- アクション実行:エージェントは決定に基づいて環境でアクションを実行します。
- 評価:現在の状態と目標を評価します。目標がまだ達成される必要がある場合は、フィードバック報酬が最初のステップに戻ります。
AgentVerseの全体的な構造は、次の画像に示されています。
研究者はフレームワークを実験し、AgentVerseフレームワークを個別のエージェントソリューションと比較しました。その結果は次の画像で示されています。
AgentVerseフレームワークは、提示されたすべてのタスクで一般的に個別のエージェントよりも優れたパフォーマンスを発揮することができます。これは、問題を解決しようとする個別のエージェントよりも生成エージェントが優れたパフォーマンスを発揮することを証明しています。あなたは彼らのリポジトリを通じてフレームワークを試すことができます。
3. AgentSims: 大規模言語モデルの評価のためのオープンソースのサンドボックス
LLMの評価能力は、コミュニティやフィールドにおいてまだ開かれた問題です。タスクによる評価能力の制約、脆弱なベンチマーク、および客観的でないメトリクスがLLMを適切に評価する能力を制限しています。これらの問題を処理するため、Lin et al., 2023は論文でLLMベンチマークとしてタスクベースの評価を提案しました。このアプローチは、提起されたすべての問題を緩和できるため、LLMの作品を評価するための標準になることを望んでいます。これを達成するため、研究者はAgentSimsと呼ばれるフレームワークを紹介しています。
AgentSimsは、LLMの評価タスクをキュレーションするための対話的で視覚化されたインフラストラクチャを備えたプログラムです。AgentSimsの全体的な目的は、研究者や専門家にタスク設計プロセスを効率化し、評価ツールとして使用するためのプラットフォームを提供することです。AgentSimsのフロントエンドは、次の画像で示されています。
AgentSimsの対象は、より簡単な方法でLLMの評価を必要とするすべての人々であるため、研究者は私たちがUIと対話できるフロントエンドを開発しました。また、あなたは彼らのウェブサイトで完全なデモを試すか、AgentSimsのリポジトリで完全なコードにアクセスすることもできます。
結論
生成エージェントは、LLMで人間の行動をシミュレートする最新のアプローチです。Park et al.、2023による最新の研究は、生成エージェントができる可能性を示しています。そのため、生成エージェントに基づくさまざまな研究が登場し、多くの新しい可能性が開かれています。
この記事では、3つの異なる生成エージェントの研究について話しました。
- Communicative Agents for Software Developmentの論文(Quan et al., 2023)
- AgentVerse:マルチエージェントの協力を促進し、エージェントの出現行動を探求する(Chen et al., 2023)
3. AgentSims:大規模言語モデルの評価のためのオープンソースサンドボックス(Lin et al., 2023) Cornellius Yudha Wijayaはデータサイエンスのアシスタントマネージャーであり、データライターです。Allianz Indonesiaでフルタイムで働きながら、彼はソーシャルメディアとメディアの記事を通じてPythonとデータのヒントを共有するのが好きです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- マイクロソフトとMITの研究者たちによる新しい方法、AIの幻覚を減らすことを目指して
- このAI研究では、LayoutNUWAというAIモデルを提案していますこのモデルは、レイアウト生成をコード生成のタスクとして扱い、セマンティック情報を向上させ、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用します
- マイクロソフトの研究者は、テキスト重視の画像の機械読み取りのためのマルチモーダルリテラシーモデルであるKosmos-2.5を紹介しました
- 「大規模な言語モデルがコンパイラ最適化のメタAI研究者を驚かせる!」
- 「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか?Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」
- 「UCSD研究者がオープンソース化したGraphologue:GPT-4のような大規模言語モデルの応答をリアルタイムでインタラクティブな図表に変換するユニークなAI技術」
- ソウル国立大学の研究者たちは、効率的かつ適応性のあるロボット制御のための革新的なAI手法であるロコモーション・アクション・マニピュレーション(LAMA)を紹介しています