Learn more about Search Results エージェント - Page 2

「オートジェンへの参入:マルチエージェントフレームワークの基礎を探索する」

イントロダクション 「自動生成に飛び込む:マルチエージェントフレームワークの基礎を探る」というテーマでソフトウェア開発の未来へのスリリングな旅に出ましょう。OpenAIのChatGPTに続く専門領域であるLLMエージェントは、AIエージェントの開発を革新する前例のない急激な急増を経験しています。単調なタスクの自動化から、動的な意思決定の課題への取り組みまで、LLMエージェントはかつて不可能と思われていた領域の限界を押し広げています。LLMエージェントは、私たちが想像することができる未来の世界において、コンピュータが現実とシームレスに融合し、AIエージェントの重要性がますます高まる世界を思い浮かべてください。言葉やジェスチャーを使ってエージェントに指示を出し、彼らが優れた推論力と行動能力でタスクを実行する様子を想像してください。しかし、私たちはAIエージェントの革命の夜明けを迎えており、ますます複雑なタスクに取り組むエージェントを力づけるための新しいインフラストラクチャ、ツール、フレームワークが生まれる様子を目の当たりにしています。マルチエージェントチャットシステムのための最先端のフレームワークであるAutogenが、今回の探求の中心になります。 本記事では、革命の初期段階にあるAIエージェントの複雑さを解きほぐし、Autogenの能力を探求しながら、これらのインテリジェントな実体をどのように活かすかを発見していきます。 学習目標 LLMエージェントとは何かを理解する Autogenとは何かを理解し、Autogenを使用してエージェントを構築する基礎を探る AutogenとOpenAI APIを使用してエージェントを構築する LLMエージェントの実世界での使用例を探索する この記事はData Science Blogathonの一環として公開されました。 LLMエージェントとは何か 通常の言語モデルは、翻訳や質問応答など、多くのことに長けています。しかし、その知識と能力には限界があります。それは、家を建てるための道具を持たない職人のようなものです。しかし、LLM(俳句言語モデル)は、必要なツールさえ与えられれば、推論や行動が可能であることが観察されています。ほとんどのLLMは世界の知識が限られていますが、プロンプティングを介してカスタムソースからの情報を補完することができます。 この目的を達成するには、2つの方法があります。検索付き生成(Retrieval Augmented Generation)とLLMエージェントです。RAGでは、モデルに情報をカスタムのハードコードパイプラインを通じて提供します。しかし、エージェントでは、LLMは推論に基づいて手元のツールを使います。たとえば、GPT-4にSerperツールを組み合わせれば、インターネットを検索して回答することができます。また、Yahoo Financeツールにアクセスできる場合は、株式のパフォーマンスを取得して分析することもできます。つまり、LLM、ツール、推論および行動のためのフレームワークの組み合わせがAIエージェントの特徴です。 LLMエージェントの構築には、プラットフォームやツールが急速に増えてきています。Autogenもそのようなツールの1つです。そのため、Autogenが何であり、それを使用してLLMエージェントを作成する方法を理解しましょう。 Autogenとは何か Autogenは、マイクロソフトのオープンソースツールで、堅牢なマルチエージェントアプリケーションを構築するためのツールです。複数のエージェント間のコミュニケーションを重視して、ゼロから設計されています。このツールを使用して、複数のエージェントが提供された問題の解決策を見つけるためにお互いに会話するLLMアプリケーションを作成することができます。エージェントは高度にカスタマイズ可能であり、特定のタスクを実行するために彼らをガイドすることができます。また、Langchainツールエコシステムとも非常に統合されており、既存のLangchainツールを活用してエージェントを補完することができます。 タスクを達成するために、Autogenはさまざまなタイプのエージェントを提供しています。例えば、 アシスタントエージェント:コーディング、レビューなどのタスクを達成する責任を持つエージェントです。 ユーザープロキシエージェント:その名前の通り、これらのエージェントはユーザーの代わりに行動します。人間がエージェントループに参加し、会話をガイドするためのものです。…

UCバークレーの研究者は、目的指向の対話エージェントのゼロショット獲得を実現する人工知能アルゴリズムを提案しています

大容量の言語モデル(LLM)は、テキスト要約、質問応答、コード生成などのさまざまな自然言語タスクにおいて優れた能力を発揮し、多くの現実世界の問題に対する強力な解決策として注目されています。ただし、これらのモデルが苦労するのは、目標指向の対話において、対話を通じて目標を達成する必要がある場合です。例えば、パーソナライズされた旅行プランを提供するために効果的な旅行代理店の役割を果たすことです。実際には、通常、過剰な情報を提供し、個別化されていない応答をする傾向があります。 教師付きのファインチューニングまたは単一ステップの強化学習(RL)で訓練されたモデルは、複数の対話の結果としての対話のアウトカムに最適化されていないため、このようなタスクでは一般的に苦労します。さらに、彼らがこうした対話での不確実性に対処する上でも問題があります。本論文では、UCバークレーの研究者が、RLを用いてゴール指向型の対話にLLMを適応させる新しい手法について探求しました。彼らの貢献として、最適化されたゼロショットのアルゴリズムと、タスクに関連した多様な質問を生成する「想像エンジン(IE)」という新しいシステムを含んでいます。 IE自体では効果的なエージェントを生成することができないため、研究者たちはLLMを使用して可能なシナリオを生成します。望ましい結果を達成するためにエージェントの効果を高めるためには、多段階の強化学習を行う必要があります。研究者たちはこのアプローチに一つの変更を加えました。オンポリシーサンプルの代わりに、彼らは合成データ自体からポリシーを学習するためにオフラインの価値ベースのRLを使用しました。 彼らの手法の効果をテストするために、研究者たちはGPTエージェントとIE+RLのパフォーマンスを人間の評価者によって比較しました。彼らは実世界の問題に基づいた2つの目標指向の対話を考慮に入れました。研究者たちはIEでGPT-3.5モデルを使用して合成データを生成し、ダウンストリームエージェントとして比較的小さなデコーダ専用のGPT-2モデルを使用しました。これによって、彼らのアプローチが実用的になり、データ生成には最先端のモデルのみが必要であり、計算コストを削減できます。 実験結果に基づいて、彼らの提案されたエージェントがすべての指標でGPTモデルを上回り、対話の自然さを確保していることがわかりました。また、定性的な結果においても、IE+RLエージェントは同等のエージェントよりも優れたパフォーマンスを発揮しました。それは簡単に答えられる質問を出し、前の質問に賢明に基づいてフォローアップの質問を行いました。研究者たちはシミュレーションを用いて2つのエージェントのパフォーマンスを比較しました。IE+RLエージェントはGPTエージェントを上回りつつも、定性的な評価では前者の方が優れた結果を出しました。 まとめると、この研究論文では、著者らがLLMのゴール指向の対話におけるパフォーマンスを向上させるための手法を紹介しています。想像エンジンを使用して、多様でタスクに関連し、現実的な合成データを生成し、対話エージェントを訓練します。具体的には、計算コストを削減するためにオフラインアプローチを使用しています。結果は、彼らの手法が伝統的な手法を常に上回り、将来の改善のための道を開いていることを示しています。彼らはこのプロセスをさらに自動化してゼロショットの対話エージェントのパフォーマンスを向上させ、AIシステムとの相互作用を向上させることができると考えています。

「JARVIS-1に会おう:メモリ拡張型マルチモーダル言語モデルを持つオープンワールドマルチタスクエージェント」

北京大学、UCLA、北京邮电大学和北京智能综合研究所的研究人员介绍了一种名为JARVIS-1的多模态代理,该代理用于Minecraft中的开放世界任务。JARVIS-1利用预训练的多模态语言模型解释视觉观察和人类指令,生成复杂的行动控制计划。 JARVIS-1利用多模态输入和语言模型进行计划和控制。JARVIS-1建立在预训练的多模态语言模型上,融合了多模态记忆,基于预训练的知识和游戏经验进行规划。在200个多样化任务中实现了接近完美的性能,尤其在具有挑战性的长视程钻石镐任务中取得了五倍的完成率提升。该研究强调了多模态记忆在增强代理自主性和开放世界场景中的智能的重要性。 该研究解决了在开放世界环境中为复杂任务创建复杂代理的挑战。现有方法需要在多模态数据、长期规划和终身学习方面进行改进。所提出的JARVIS-1代理,建立在预训练的多模态语言模型上,在Minecraft任务中表现出色。JARVIS-1在200个任务中实现了近乎完美的性能,显著改善了长视程钻石镐任务。该代理展示了自主学习的能力,在较少外部干预的情况下发展,为实现具备普遍能力的人工智能做出了贡献。 JARVIS-1建立在预训练的多模态语言模型上,结合视觉和文本输入生成计划。代理的多模态记忆将预训练的知识与游戏经验融合,用于规划。现有方法使用层次目标执行架构和大型语言模型作为高层规划器。JARVIS-1在Minecraft Universe基准测试中进行了评估,揭示了由于控制器对短视程文本指令的不完美执行而导致的钻石相关任务中的挑战。 JARVIS-1的多模态记忆促进了自我改进,通过超越其他指令跟随代理增强了总体智能和自主性。JARVIS-1在具有挑战性的任务中超过了没有记忆的DEPS,钻石相关任务的成功率几乎提高了三倍。该研究强调了在更容易执行的计划生成以及在钻石相关任务中提高控制器遵循指令能力方面的重要性。 JARVIS-1是建立在预训练的多模态语言模型上的开放世界代理,擅长于Minecraft宇宙中的多模态感知、计划生成和行动控制。通过整合多模态记忆,JARVIS-1利用预训练的知识和实时经验来增强决策能力。JARVIS-1在长视程钻石镐等任务的完成率大幅提高,超过以往记录多达五倍。这一突破为复杂虚拟环境中多功能和适应性代理的未来发展奠定了基础。 进一步的研究建议增强任务执行的计划生成,提高控制器在钻石相关任务中遵循指令的能力,并研究简化执行的方法。建议通过多模态记忆和实时经验探索提升开放世界场景中的决策能力的方式。推荐扩展JARVIS-1在Minecraft的更广泛任务范围内的能力,并在其他虚拟环境中进行潜在的适应。该研究鼓励通过终身学习不断改进,促进JARVIS-1的自我改进和更大程度的智能和自主性的发展。

「Amazon Bedrock のエージェント付きカスタマーサービスボットの基盤モデル(FM)を構築する」

会話エクスペリエンスの向上からエージェントのサポートまで、生成型人工知能(AI)と基盤モデル(FMs)は、より速く、より良いサポートを提供するためのさまざまな方法があります FMsの利用可能性と多様性が増しているため、最新のモデルバージョンで実験を行い、最新情報を追いつくのは困難です Amazon Bedrockは完全管理されたサービスであり、[…]

デジタルワーカーやAIエージェントのレベルを定義する時が来ましたこれは自動運転車と同様のものですIDWAがプロセスをスタートします

AIの急速な発展は、ますます多くのデジタルワーカー、AIエージェント、およびAIエージェントプラットフォームの出現をもたらし、これらは自己のタスクの実行、意思決定、および行動が可能となっています。 自動運転車の文脈において、自動車技術者協会(SAE)は、レベル0からレベル5までの6段階の自律性レベルを定義するためのスケールを開発しました。このスケールでは、レベル0では人間のドライバーが完全に制御し、レベル5では車両が完全に自律的に動作し、どんな環境でも運行できるとされています。 同様のスケールがデジタルワーカー/ AIエージェント向けに開発され、必要とされるべきです。これにより、ユーザーと開発者の期待を明確にすることができ、このエコシステムのより迅速かつ持続可能な開発のための業界標準を定義する可能性があります。IDWA(International Digital Workers Association)は、デジタルワーカー(デジタルエンプロイ)自律性レベルの草案を11月8日にシリコンバレーで開催されるIDWA-Forumで提案します。 AIエージェントの自律性レベルを定義することのいくつかの主な利点は次のとおりです: 透明性の向上:AIエージェントができること、できないことを明確にすることで、ユーザー間の信頼構築に役立ちます。 安全性の向上:AIエージェントの能力を明確に定義することで、安全かつ責任ある使用が実現されるようになります。 責任の縮小:AIの開発に対する明確なガイドラインの確立により、AI開発者の責任リスクを減らすことができます。 しかし、これは容易な課題ではありません。いくつかの課題には次のようなものがあります: AIの複雑さ:AIエージェントは理解し予測するのが難しい複雑なシステムです。これにより、自律性の異なるレベル間の明確な境界を定義することが難しくなります。 AIの急速な発展:AIの分野は常に進化しており、自律性レベルの定義を定期的に更新する必要があります。 IDWAはこの課題に取り組み、デジタルワーカーやAIエージェントの自律性レベルを定義するためのプロセスを開始するために、レベル0(タスクの自動化なし)、レベル4(自律的なタスク管理)からレベル8(リーダーシップ)までの8段階の草案を提案しています。 IDWA-ForumはKuzma Frostが制作しています。 IDWAはDavid YangとMichael Engelに率いられています。 投稿: 自動運転車と同様にデジタルワーカーとAIエージェントの自律性レベルを定義する時が来た:IDWAがプロセスを開始 元の記事: MarkTechPost

「自動通話要約を通じて、エージェントの生産性を向上させるために生成的AIを使用する」

あなたのコンタクトセンターは、ビジネスと顧客の間の重要なリンクとして機能しますコンタクトセンターへのすべての電話は、顧客のニーズとそれらのニーズをどれだけ満たしているかをより理解する機会ですほとんどのコンタクトセンターでは、エージェントが毎通話の後に会話をまとめることを求めています通話の要約は、コンタクトセンターが顧客の電話から洞察を得るための貴重なツールですまた、正確な通話の要約は、別のエージェントに転送される際に顧客が情報を繰り返す必要をなくすことにより、顧客の旅を向上させますこの記事では、ジェネレーティブAIの力を利用して通話の要約と通話の手座を作成する作業の効率化と正確性を高める方法について説明しますまた、最新バージョンのオープンソースソリューション「Live Call Analytics with Agent Assist」を使用して素早く始める方法も示します

マイクロソフトがデータフォーミュレータを導入:データ変換の課題に取り組むためのコンセプト駆動型の可視化作成ツールで、人工知能AIエージェントを活用しています

データの可視化は、データ内のパターン、傾向、洞察を理解するために、データを図形や画像の形式で表示することを指します。効果的なデータの可視化は、データ分析において重要な役割を果たします。それにより、データアナリストは複雑なデータセットを探索し、パターンを理解し、さまざまな関係者に有意義な洞察を伝えることができます。現在、データの視覚的な表現を作成するための多くのツールがあります。しかし、データを整理した形式に変換する必要があります。 これにはプログラミングの経験または別個のデータ処理ツールが必要であり、データの変換は可視化の制作における障壁となっています。それには一定のプログラミングの専門知識や追加のデータ処理ツールの理解が必要です。データの可視化の複雑さを浮き彫りにし、技術的な背景に関係なく、データアナリストがインパクトのある視覚化を作成できるようにするために、より簡単でシームレスなプロセスが必要とされます。 そのため、研究者たちはデータの可視化における障壁を克服するための大きな進歩を遂げています。人工知能(AI)とヒューマンコンピュータインタラクション(HCI)の共同研究により、データ表現における画期的なパラダイムを導入するAIパワードの可視化制作ツールであるData Formulatorが生まれました。 Data Formulatorは、データの可視化の複雑なプロセスを簡単にすることを目指しています。このツールは従来の手法とは異なり、高レベルの可視化の概念とデータ処理の具体的な内容を区別します。データアナリストは、可視化のために考えているアイデアを「データの概念」として記述します。つまり、生データには存在しなくても表示されて欲しい特定のフィールドやカテゴリを指します。このように考えを表現することで、アナリストはAIエージェントに意味を理解させることができ、概念を関連する視覚的な要素と結び付けて可視化プロセスを容易にします。 アナリストが望むものが不明確である可能性があることを理解して、Data Formulatorはデータの異なる可視化方法を表示して支援します。アナリストには多くの選択肢が与えられ、すべてがより透明になります。さらに、Data FormulatorはAIがデータを変更するために使用したプログラムと新しいデータ自体も提供します。これにより、アナリストはすべてを見て次回に向けてアイデアをより良くすることが容易になります。 Data Formulatorから派遣されたAIエージェントは、入力データを変換してこれらの概念を強調し、望ましい視覚化を作成します。結果を提示すると同時に、Data Formulatorは変換されたデータと可視化の理解と検査を支援するためのフィードバックを提供します。 Data Formulatorは、アナリストの入力に基づいて2つの異なる方法、具体例に基づいた概念の定義と自然言語クエリを使用します。前者では、プログラム合成器が特殊なデータ再形成プログラムを生成し、後者では言語モデル(LLM)を呼び出してコードを生成し、記述された新しいデータカテゴリを作成します。生成された変換後のデータは、対応する可視化とともに構造化されたテーブルにコンパイルされます。 可視化に限らず、この手法はデータクリーニング、統合、探索、ストーリーテリングにも応用されます。理想的なAIシステムは、高レベルの指示に従い、データ分析パイプライン全体でアクションを提案し、ユーザーとAIエージェントの協力を促し、データの可視化目標を達成するために共同作業を進めます。研究者は、不明確であったり、曖昧であったり、正確でなかったりしても結果をアナリストに効果的に伝えるAIツールの作成が、この協力のために重要であると述べています。

ChatDev ソフトウェア開発のためのコミュニケーションエージェント

ソフトウェア開発業界は、しばしば相談と直感に頼る領域であり、入り組んだ意思決定戦略に特徴付けられていますさらに、ソフトウェアの開発、保守、および運用には、厳格で方法論的なアプローチが必要です問題の複雑さに応じて、ソフトウェア開発者は相談ではなく直感に基づいて意思決定をすることが一般的です

アデプトAIはFuyu-8Bをオープンソース化しました:人工知能エージェントのためのマルチモーダルアーキテクチャ

人工知能において、テキストと視覚データのシームレスな融合は長い間複雑な課題でした。特に高効率なデジタルエージェントの開発においてはそうです。Adept AIの最新製品であるFuyu-8Bの発売は、多モーダル画像の理解を簡素化する革新的な進歩を示しています。 デジタルエージェントの要求と非構造化の知識労働者データの複雑な要件に対応するためにカスタマイズされたFuyu-8Bは、統一的なテキスト-イメージ処理の領域で重要な進歩を成し遂げています。この進歩により、複雑なデータ統合タスクの管理におけるより合理化された直感的なアプローチが約束され、様々な領域における効率的なAI駆動型ソリューションの可能性が広がると期待されています。 既存の多くのモデルが複雑なアーキテクチャに取り組んでいる中、Fuyu-8Bはシンプルさと効率性を追求することで差をつけています。 Adept AIによって開発されたこのモデルは、専用の画像エンコーダが不要な基本のデコーダ-トランスフォーマーを採用しています。Fuyu-8Bの柔軟なフレームワークは、テキストと画像をシームレスに処理し、さまざまな画像解像度に対応しています。その革新的な設計により、Fuyu-8Bは複雑な図表やグラフを理解するだけでなく、画面上の光学文字認識(OCR)タスクを実行し、ユーザーインターフェース(UI)ベースのクエリに応答する能力を備えており、これによりさまざまなAIアプリケーションにおいて汎用性と不可欠なツールとなっています。 Fuyu-8Bの堅牢な性能は、テキストと画像データの統合を簡素化するように設計されたアーキテクチャが主たる要因です。専用の画像エンコーダに関連する複雑さを回避することで、モデルはユーザーに直感的かつ効率的なワークフローを提供し、多モーダルデータの繊細な部分をスムーズに操作できます。複雑な図表やグラフの処理とOCRタスクの高い能力は、画像ベースのクエリの処理におけるその適応性と柔軟性を示しています。Fuyu-8Bはシンプルな設計でありながら、標準的な画像理解ベンチマークで優れた性能を発揮し、多モーダルAIモデルの中でもトップランナーとしての評価を確立しています。 Fuyu-8Bの導入は、効率的な画像理解のための多モーダルモデルを簡素化し、強化する取り組みにおいて重要な進展を示すものです。 Adept AIがシンプルさと機能性に重点を置いていることは、画像の処理と理解に関連する複雑さに効果的に対処していることを示しています。Fuyu-8Bの印象的なパフォーマンスと使いやすいアーキテクチャは、AIツールの将来の開発の基盤を築き、デジタルエージェントと知識労働者の変化するニーズに対応する直感的かつ適応可能なモデルの重要性を強調しています。実用性とシームレスな統合能力により、Fuyu-8BはAIと機械学習の中で多モーダルモデルの持続的な進化の予兆となり、将来におけるさまざまな革新的な可能性を約束しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us