「AutoGen：次世代の大規模言語モデルアプリケーションの動力源」

「AutoGen：次世代の大規模言語モデルアプリケーションのパワーハウス」

大規模言語モデル（LLM）は、現在、AIのメインストリームで最も話題とされているトピックの一つです。世界中の開発者たちは、LLMの潜在的な応用を探求しています。これらのモデルは、テキスト、音声、画像、動画など、さまざまなコンテンツを理解、要約、予測、生成するために、深層学習技術と大量のトレーニングデータを利用するAIアルゴリズムです。

大規模言語モデルは複雑なAIアルゴリズムです。このようなモデルを開発することは大変な作業であり、LLMの機能を活用するアプリケーションを構築することも同じくらいの挑戦を伴います。最高の結果を出すために、大規模言語モデルの可能性にアクセスできるようにするワークフローを設計、実装、最適化するには、専門知識、努力、リソースが必要です。大規模言語モデルのパワーを活用するアプリケーションのワークフローを確立するためには、時間とリソースがかかるため、これらのプロセスを自動化することは非常に価値があります。特に、ワークフローがますます複雑になり、開発者がより高度なLLMベースのアプリケーションを作り出すことが予想される場合には、このことがより真実です。さらに、これらのワークフローに必要なデザインスペースは複雑で広範であり、パフォーマンスの期待に応えるために最適で堅牢なワークフローを作り出す課題をさらに高めています。

AutoGenは、Microsoftのチームによって開発されたフレームワークであり、自動化技術をワークフローパイプラインに導入することにより、LLMのワークフローのオーケストレーションと最適化を簡素化することを目指しています。AutoGenフレームワークは、GPT-3やGPT-4などの高度なLLMのパワーを利用し、同時にLLMをツールや人間の入力と統合することにより、自動チャットを使用して複数のエージェント間での対話を開始することで、その現在の制限も解決しています。

AutoGenフレームワークを使用すると、複雑なマルチエージェントの会話システムを開発する際には、たった2つのステップしか必要ありません。

ステップ1：各エージェントを役割と能力を持つセットとして定義します。

ステップ2：エージェント間の相互作用の振る舞い、つまり、他のエージェントからメッセージを受け取った際にどのように返信するかを定義します。

上記の2つのステップは、モジュラーかつ直感的であり、これらのエージェントを組み合わせて再利用することができます。以下の図は、サプライチェーンの最適化におけるコードベースの質問応答をサンプルとして示しています。見ての通り、ライターがまずコードと解釈を書き、セーフガードがコードのプライバシーと安全性を確保し、必要なクリアランスを受け取った後、コマンダーがコードを実行します。ランタイム中に問題が発生した場合は、完全に解決されるまでプロセスが繰り返されます。以下のフレームワークを展開することで、サプライチェーンの最適化などのアプリケーションでの手作業の削減率を3倍から10倍に減らす効果があります。さらに、AutoGenの使用により、コーディングの労力も最大で4倍削減されます。

AutoGenは、LLMのパワーを活用して複雑なアプリケーションの開発プロセスを変革しようとする画期的な存在です。AutoGenの使用により、望ましい結果を達成するために必要な手動の対話の量を削減するだけでなく、このような複雑なアプリケーションを作成するために必要なコーディングの労力も削減することができます。AutoGenを使用してLLMベースのアプリケーションを作成することで、プロセスを大幅に加速するだけでなく、開発に必要な時間、労力、リソースも削減できます。

本記事では、AutoGenフレームワークについて詳しく掘り下げ、AutoGenフレームワークの重要なコンポーネントやアーキテクチャ、およびその潜在的な応用について探求します。それでは、始めましょう。

AutoGenのご紹介：次世代の大規模言語モデルアプリケーションにパワーを

AutoGenは、Microsoftのチームによって開発されたオープンソースのフレームワークであり、複数のエージェントが互いと対話して目的のタスクを成功裏に実行するためのLLMのパワーを利用するアプリケーションを開発者に提供するものです。AutoGenのエージェントは対話可能でカスタマイズ可能であり、ツール、人間の入力、LLMの組み合わせを使用したさまざまなモードで動作することができます。開発者は、エージェントの相互作用の振る舞いを定義するためにコンピューターコードと自然言語の両方を使用し、さまざまなアプリケーションに展開される柔軟な会話パターンをプログラムするためにAutoGenフレームワークを使用することもできます。オープンソースのフレームワークであるため、AutoGenは、LLMのパワーを活用したさまざまな複雑さのアプリケーションやフレームワークを構築するために開発者が利用できる汎用のフレームワークとして考えられます。

大規模言語モデルは、新しい観測、ツールの使用、および多くの実世界のアプリケーションでの推論のためにLLMフレームワークを利用するエージェントの開発において重要な役割を果たしています。しかし、LLMのフルポテンシャルを活用できるアプリケーションを開発することは複雑な作業です。また、タスクの複雑さが増加するにつれて、LLMの需要と応用の増加も見込まれているため、これらのエージェントのパワーを複数のエージェントが協力して拡大することが重要です。しかし、どのようにしてマルチエージェントアプローチを使用して、異なる複雑さを持つ様々なドメインに適用できるLLMベースのアプリケーションを開発することができるのでしょうか？ AutoGenフレームワークは、マルチエージェントの会話の使用を通じて、上記の問いに答えようとする試みです。

AutoGen：コンポーネントとフレームワーク

AutoGenは、様々なドメインにわたってLLMの能力を活用する複雑なアプリケーションを開発するために開発者が必要とする作業量を減らすことを目指しています。AutoGenの基本原則は、マルチエージェントのワークフローを統合し、効率化するためにマルチエージェントの会話を活用することで、実装されたエージェントの再利用性を最大化することです。AutoGenは、目的のタスクを成功裏に実行するために互いに会話をする複数のエージェントを使用し、フレームワークは2つの基本コンセプトに基づいて構築されています：会話可能なエージェントと会話可能なプログラミング。

会話可能なエージェント

AutoGenにおける会話可能なエージェントとは、他の会話可能なエージェントに情報を送受信するためのメッセージの送信と受信を行う役割を持つエンティティです。会話可能なエージェントは、受信または送信されたメッセージに基づいて内部コンテキストを維持し、開発者はこれらのエージェントを設定して、LLMツールによって有効化されたり、ヒューマンインプットを行うなど、一意の機能セットを持たせることができます。

ヒューマン、ツール、およびLLMによるエージェントの能力

エージェントの能力は、メッセージの処理と応答方法に直接関係しており、これがAutoGenフレームワークのエージェントが開発者にさまざまな能力を与える柔軟性の理由です。AutoGenは、エージェントの自治性やスキルを向上させるために、LLMによる特殊なプロンプティング技術を使用することなど、さまざまな共通の合成可能なエージェント機能をサポートしています。

LLM：LLMによってバックアップされたエージェントは、暗黙の状態干渉、役割プレイ、フィードバックの提供、さらにはコーディングなどの高度なLLMフレームワークの能力を利用します。開発者は、これらの能力を組み合わせるための新しいプロンプティング技術を使用して、エージェントの自治性やスキルを向上させることができます。
ヒューマン：いくつかのアプリケーションではヒューマンの関与が望まれる場合があり、AutoGenフレームワークは、ヒューマンバックドエージェントを使用してエージェントの会話中に特定のラウンドでヒューマンのインプットを取得することができるようにします。
ツール：ツールバックドエージェントは通常、コード実行や関数実行を使用してツールを実行する能力を持っています。

エージェントの協力とカスタマイズ

アプリケーションの具体的なニーズと要件に基づいて、開発者は個々のエージェントを特定のバックエンドタイプの組み合わせを持つように設定することができます。これにより、マルチエージェントの会話における複雑な動作を表示するための特化した役割と機能を持つエージェントを容易に作成することができます。AutoGenフレームワークに組み込まれているエージェントの基本的な構造を示す図は以下のとおりです。ConversableAgentクラスは、最も高レベルのエージェント抽象化であるため、デフォルトでヒューマン、ツール、LLMを使用できます。UserProxyAgentとAssistantAgentは、ConversableAgentの事前設定済みクラスであり、それぞれがAIアシスタントとして機能します（LLMでバックアップされている場合）、ヒューマンプロキシとして機能するヒューマン inputまたはツールと/またはヒューマンからの関数呼び出しまたはコード（ツールや/または人間によってバックアップされている場合）を実行します。

以下の図は、開発者がAutoGenフレームワークを使用してカスタムの返信関数を持つ2エージェントシステムを開発し、プログラムの実行中に2エージェントシステムを使用する自動化されたエージェントチャットのイラストを示しています。

カスタムエージェントの使用を許可することにより、これらの対話可能なエージェントはAutoGenフレームワークの基本的な構成要素として機能します。ただし、開発者はこれらのマルチエージェントの対話を特定のタスクにおいて実質的な進展があるように指定およびモールドする必要があります。

対話プログラミング

上記の問題を解決するために、AutoGenフレームワークでは、計算とコントロールフローという2つの基本的な概念に基づいて構築されたコンピューティングパラダイムである対話プログラミングを使用します。計算は、マルチエージェントの対話の中でエージェントが応答を計算するために行うアクションであり、制御フローはこれらの計算が行われる条件または順序です。これらをプログラムする能力により、開発者は多くの柔軟なマルチエージェントの対話パターンを実装することができます。さらに、AutoGenフレームワークでは、計算は対話を中心に展開されます。エージェントが行うアクションは、エージェントが関与する対話に関連しており、エージェントのアクションにより、その後の対話のためのメッセージの受け渡しが行われるようになります。終了条件が満たされるまで。さらに、AutoGenフレームワークでは制御フローが対話によって駆動されます。これは、参加エージェントが計算手順にメッセージを送受信するエージェントを決定することです。

上記の図は、個々のエージェントが役割固有の操作と対話中心の計算を行い、コードの実行やLLM干渉呼び出しなどの所望の応答を生成する様子を示しています。対話ボックスに表示される対話の支援により、タスクが進展します。

対話プログラミングを容易にするために、AutoGenフレームワークには以下のデザインパターンがあります。

自動返信メカニズムと自動エージェントチャットの統合インターフェース

AutoGenフレームワークには、対話を中心とした計算を実行するための統合インターフェースがあります。これには、メッセージの受信または送信に関する「受信または送信関数」および受信したメッセージに基づいて応答を生成し、必要な操作を実行する「generate_reply」関数が含まれます。AutoGenフレームワークでは、対話駆動の制御を実現するために、デフォルトでエージェント自動返信メカニズムも導入されています。

自然言語とプログラミングとの融合による制御

AutoGenフレームワークは、LLMを使用した自然言語制御、プログラミング言語制御、およびプログラミングと自然言語の間の制御の移行など、さまざまな制御フロー管理パターンで自然言語とプログラミングの使用を容易にします。

さらに、事前に定義されたフローが通常伴う静的対話に加えて、AutoGenフレームワークは複数のエージェントを使用して動的な対話フローもサポートしており、フレームワークは開発者に対して2つのオプションを提供します。

関数呼び出しを使用する。
カスタマイズされたgenerate-reply関数を使用する。

AutoGenの応用

複雑なマルチエージェントアプリケーションの開発におけるAutoGenフレームワークの潜在能力を説明するために、次に、現実世界での関連性、AutoGenフレームワークによって強化された問題解決能力、および革新的な可能性に基づいて選択された6つのAutoGenの潜在的なアプリケーションを示します。

AutoGenフレームワークのこの6つのアプリケーションは次のとおりです。

数学的な問題解決。
再現補完チャット。
ALFチャット。
マルチエージェントコーディング。
動的なグループチャット。
対話型チェス。

アプリケーション1：数学の問題解決

数学は、複雑な数学の問題の解決に対してLLMモデルを活用するための基礎的な学問の一つであり、AIの研究支援や個別化されたAIチュータリングなど、潜在的なアプリケーションの新しい世界を開くことができます。

上記の図は、数学の問題を解決するためにAutoGenフレームワークを利用して競争力のあるパフォーマンスを達成するための応用を示しています。

応用2：質問応答とリトリーバル補完型コード生成

最近の数ヶ月間、リトリーバル補完型コード生成は、外部文書の組み込みにおけるLLM（大語彙体系）の制限を克服するための効果的かつ実践的なアプローチとして浮上しています。下の図は、リトリーバル補完の効果的な増強とQ&Aタスクのパフォーマンス向上のためにAutoGenフレームワークを利用した応用を示しています。

応用3：テキストワールド環境における意思決定

AutoGenフレームワークは、オンラインまたはインタラクティブな意思決定を行うアプリケーションの作成に使用することができます。下の図は、開発者がAutoGenフレームワークを使用して、対話エージェントを持つ3つのエージェントからなるシステムを設計する方法を示しており、パフォーマンスを大幅に向上させることができます。

応用4：マルチエージェントコーディング

AutoGenフレームワークで作業する開発者は、OptiGuideフレームワークを使用して、最適化された解の実装やユーザーの質問に回答するためのコードを生成するマルチエージェントコーディングシステムを構築することができます。下の図は、AutoGenフレームワークを使用してマルチエージェント設計を作成することで、特にセキュリティが必要なコーディングタスクの全体的なパフォーマンスを大幅に向上させます。

応用5：ダイナミックグループチャット

AutoGenフレームワークは、参加する複数のエージェントがコンテキストを共有し、事前に定義された命令の代わりに動的な方法でお互いと会話するダイナミックグループチャットを中心としたコミュニケーションパターンをサポートします。これらのダイナミックグループチャットは、エージェント内の相互作用のフローを案内するために進行中の会話に依存しています。

上記の図は、AutoGenフレームワークが特別なエージェントである「GroupChatManager」を利用してエージェント間のダイナミックなグループチャットをサポートしていることを示しています。

応用6：対話型チェス

AutoGenフレームワークの開発者は、LLMまたは人間であることができるプレイヤー向けの組み込みエージェントと、関連情報を提供し、事前に定義された標準ルールに基づいてボード上の動きを検証するサードパーティエージェントが含まれる自然干渉ゲームである対話型チェスアプリケーションを開発するためにAutoGenフレームワークを使用しました。下の図は、AutoGenフレームワークを使用して構築された対話型チェスの例を示しています。このゲームでは、プレイヤーや観客にとっても興味深い要素として、ジョーク、キャラクタープレイ、そしてミームの参照を使用して自分の手を表現することができます。

結論

この記事では、AutoGenというオープンソースのフレームワークについて述べ、会話プログラミングと対話型エージェントの概念を利用して、LLMワークフローのオーケストレーションと最適化を簡素化することを目指しています。AutoGenフレームワークは、GPT-3やGPT-4などの高度なLLMの機能を活用しつつ、ツールや人間の入力と統合することで現在の制限に対処しています。また、複数のエージェント間の対話を開始するための自動チャットを使用することで、AutoGenフレームワークは対話可能でカスタマイズ可能なエージェントを提供しています。

AutoGenフレームワークはまだ早期の実験段階ですが、将来の探求や研究の機会を開拓する道を切り拓いており、LLMの能力を活用したアプリケーションの開発の速度、機能性、および開発の容易さを向上させることに役立つ可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

「AutoGen：次世代の大規模言語モデルアプリケーションの動力源」

AutoGenのご紹介：次世代の大規模言語モデルアプリケーションにパワーを

AutoGen：コンポーネントとフレームワーク

会話可能なエージェント

ヒューマン、ツール、およびLLMによるエージェントの能力

エージェントの協力とカスタマイズ

対話プログラミング

AutoGenの応用

アプリケーション1：数学の問題解決

応用2：質問応答とリトリーバル補完型コード生成

応用3：テキストワールド環境における意思決定

応用4：マルチエージェントコーディング

応用5：ダイナミックグループチャット

応用6：対話型チェス

結論

Was this article helpful?

アカデミックパートナーがスタートアップの製品の妥当性を検証するのにどのように役立つか

Amazonの研究者たちが提案するディープラーニングのトレーニングのためのコンパイラには、3つの主な特徴があります- Syncfreeオプティマイザ、コンパイラキャッシュ、およびマルチスレッド実行

機械学習

DeepMindのAIマスターゲーマー：2時間で26のゲームを学習

AI倫理の役割：革新と社会的責任のバランス

「Underrepresented Groupsの存在下での学習について」

ChatGPTでリードマグネットのアイデアをブレインストームする

ファインチューニングLLM パラメータ効率の改善 (PEFT) — LoRA および QLoRA — パート1

このAIニュースレターは、あなたが必要とするすべてです＃71